Dans notre précédent article, VCDR a été déployé, la réplication des données conformément à la politique est fonctionnelle. L’objectif dans cette dernière partie est de présenter un test de reprise d’activité dans le Cloud.
Déclenchement d’un test de DRP sans pilot Light
Le test va se dérouler en plusieurs étapes :
- Créer le SDDC VMC on AWS de reprise d’activité
- Identifier le point de rétention à restaurer
- Redémarrer les machines depuis le plan de reprise précédemment configuré
- Connecter les utilisateurs à la bulle de test
Petit rappel de notre cas d’usage :
- L’architecture locale est compromise
- Un SDDC VMC on AWS est provisionné dans le cloud
- Le point de rétention le plus fiable est démarré
- Un tunnel VPN IPSec est créé entre NSX et le firewall du client
- Le routage est modifié afin de permettre aux utilisateurs du site d’accéder aux VMs dans le cloud sans avoir à modifier leurs IPs.
Dans le cadre de notre test dans une bulle isolée de la production, nous allons modifier les IPs des VMs sur le SDDC de reprise afin de permettre au site local d’y accéder au travers d’un tunnel VPN. Cette méthode permet de valider la connectivité VPN et l’accès à la bulle sans impacter la production du site secouru.
Création du SDDC de reprise
Un SDDC VMC on AWS doit être déployé en cas de DR. Pour les architectures nécessitant une reprise rapide (RTO faible), il est possible de disposer d’un SDDC toujours démarré et prêt à accueillir des machines virtuelles, un « pilot light ».
Depuis la console VCDR, nous lançons la création d’un SDDC de reprise :
Le provisionnement du SDDC prend environ 2h :
A la fin du traitement, le SDDC de reprise est disponible :
NOTE : pour les besoins de notre test, nous avons déployé un SDDC composé d’un seul nœud. Cette configuration permet de réduire au maximum les coûts mais n’assure aucune résilience. Pour une reprise d’activité réelle, il est possible d’ajouter des nœuds au cluster ou de créer directement un cluster avec le bon nombre d’hôtes.
Modification du plan de DR
Nous allons maintenant modifier le plan pour lui indiquer de pointer vers le SDDC de reprise précédemment créé et configuré des mappings entre les ressources locales et le SDDC Cloud (portgroups, ressources pools, dossiers de l’inventaire, …).
Dans le cadre de notre test « à blanc », c’est-à-dire dans une bulle isolée, nous allons tester de changer les adresses IPs des machines automatiquement :
NOTE : pour rappel, le reIP des machines virtuelles est l’une des possibilités pour la reprise d’activité. Cette méthode est généralement peu retenue pour les environnements de production car elle peut avoir un impact fort sur les systèmes et applications hébergées (notamment celles contenant des IPs en dur dans les configurations).
Une fois le plan reconfiguré, il peut alors être joué.
Lancement d’un test de reprise d’activité
Une fois le SDDC prêt, Il est alors possible de lancer un test pour valider que le plan fonctionne :
Nous sélectionnons le point de rétention selon la décision fournie par l’équipe sécurité.
NOTE : VCDR permet de naviguer dans les points de rétention et même de restaurer de façon granulaire un ou plusieurs fichiers. Cette méthode permet aux équipes sécurité en charge de l’analyse du sinistre d’identifier rapidement le point de rétention jugé fiable sans devoir restaurer / démarrer les machines.
Après cette étape, VCDR démarre son cycle de reprise d’activité en démarrant les machines virtuelles depuis le stockage Cloud.
NOTE : il est possible de démarrer les machines depuis le stockage Cloud puis de les déplacer sur le stockage alloué au SDDC (solution VMware vSAN). Cette fonctionnalité permet de réduire au maximum l’interruption de service et d’éventuels temps nécessaires à la restauration des machines.
Un tableau de bord permet de suivre étape par étape le déroulement du test :*
Dans une situation de reIP, la présence des VMware Tools sont nécessaires, et dans le cas contraire, une erreur non bloquante peut apparaitre.
A la fin du test, les machines ont redémarré dans l’ordre demandé et sont disponibles sur le SDDC de reprise :
Une fois les machines démarrées, la dernière étape consiste à rendre accessible la bulle du site de production.
Connexion au réseau local
Dans notre scénario de reprise, nous allons connecter le site de production au SDDC via un tunnel VPN IPsec entre le firewall du site et NSX T.
Le tunnel est créé sur les 2 firewalls :
Des règles de flux sont créés sur NSX afin de permettre un accès à la bulle depuis le site de production :
NOTE : NSX permet d’appliquer une couche de sécurité supplémentaire y compris au sein d’un même VLANs (micro-segmentation). Cette fonctionnalité est très utile en cas de sinistre cyber pour isoler au maximum les échanges entre les machines fiables et jugées à risque.
Après quelques validations fonctionnelles, le test de reprise d’activité est un succès. Succès oui mais le travail n’est pas terminé ! il faut maintenant nettoyer et supprimer le SDDC qui est facturé en fonction de son temps d’utilisation.
Nettoyage en fin de tests
Le nettoyage se fait directement depuis la console VCDR, une fois les machines démontées, le SDDC de reprise peut alors être supprimé.
NOTE : A la fin du test ; un rapport est envoyé par mail avec les différentes étapes, leur durée ainsi que le statut. Ce rapport est très utile pour comparer les tests de reprise dans le temps et s’assurer de ses engagements en termes de RTO.
Pour conclure
De multiples raisons techniques et humaines peuvent impacter le fonctionnement d’un système d’information de manière partielle voire totale. La cause majeure reste aujourd’hui un acte de cyber attaque notamment par l’usage d’un ransomware. Les entreprises mettent tout en œuvre pour éviter ces attaques mais il n’existe aujourd’hui aucune garantie d’être protégé à 100%.
Disposer d’un plan de reprise d’activité est aujourd’hui une nécessité voire un des prérequis pour la plupart des assureurs. Le plan de Reprise d’Activité doit être pensé pour permettre de redémarrer les services de l’entreprise en toute sécurité et avec fiabilité. Les équipes IT doivent organiser des tests réguliers afin s’assurer de l’efficacité du plan.
En cas de sinistre ransomware, VCDR propose des fonctionnalités de protection immuable des données des machines virtuelles et redémarrer les machines virtuelles dans une infrastructure complètement isolé du datacenter on-premise, ce qui permet de réduire l’empreinte d’attaque. Ce type de plan de reprise d’activité est le dernier rempart contre le chaos.
VCDR permet de répondre aux enjeux en termes de résilience, de protection de la donnée tout en réduisant la charge des équipes IT en s’appuyant sur des technologies Cloud éprouvées et simples d’administration. Le redémarrage dans le cloud permet de s’affranchir des couts de gestion d’un site de reprise d’activité et de s’appuyer sur la flexibilité et l’élasticité d’un CSP.
VCDR permet d’automatiser simplement la plupart des étapes de la reprise d’activité. L’automatisation permet de réduire le risque d’erreurs humaines liées au stress en cas de sinistre mais aussi d’accélérer le redémarrage des services.
VCDR permet de conserver l’enveloppe des machines virtuelles VMware dans le cloud pour éviter d’éventuels impacts sur les systèmes d’exploitation. Ces technologies permettent une réversibilité totale vers n’importe quel type de cloud.
N’hésitez pas à contacter les équipes Metanext pour vous accompagner dans vos projets de reprise d’activité.
Merci.
Louis PÉJAUDIER, Consultant Cloud et Virtualisation VMware
Avec le soutien rédactionnel de Maxime Guillotte, Tribu Leader VMware Rhône-Alpes & Léonardo Coscia, Tribu Leader VMware