Les Ops ces mal-aimés
Depuis longtemps les services d’opérations des DSI sont pointés du doigts pour le manque de réactivité et d’adaptabilité. Ce sentiment s’est renforcé au fil du temps avec le déploiement de la virtualisation puis l’arrivée du cloud. Cette qualité de service a souvent été au centre des préoccupations des DSI qui ont cherché à l’améliorer de diverses manières (amélioration continue dans le meilleur des cas, externalisation du service dans le pire des cas et dans une moindre mesure amputation d’une partie des responsabilités des opérations en faveur des développeurs avec le DevOps).
Alors quand on entend parler d’AIOps ont se dit qu’il s’agît d’un nouveau concept pour réduire encore plus le périmètre d’activité des opérations. AIOps signifie « Artificial Intelligence Operations Systems » soit en français dans le texte « Intelligence Artificielle pour les Opérations informatiques ».
C’est la combinaison du big data et du machine learning pour fournir aux équipes d’opérations des alertes plus pertinentes, une certaine proactivité et de consacrer moins de temps aux routines quotidiennes.
Globalement comment cela fonctionne ?
Tout d’abord il faut appréhender l’AIOps comme un service de métrologie. Il consomme une multitude de sources d’informations (journaux d’activités, des évènements de supervision, des faits de gestion, des référentiels…) : c’est la partie big data.
Ensuite vient l’analyse et le croisement des données à partir d’algorithmes. L’outil va alors réaliser des corrélations de données pour fournir des informations en temps réel sur le SI à travers des tableaux de bords ou des alertes, enrichir l’analyse d’incidents voir réaliser des actions automatiques.
Le vrai point fort de ce type d’outil est qu’il va apprendre de lui-même le fonctionnement du SI et ses besoins (en fonction des données et des algorithmes d’apprentissage à sa disposition).
A titre d’exemple prenons le cas simple de la surveillance de l’activité CPU d’un serveur. Généralement une alerte est émise dès que le l’activité dépasse 90% de la ressource CPU disponible durant 2 minutes d’affilées. Ce type d’alerte trouve très vite ses limites dans le cas d’une suractivité régulière liée à l’exécution d’un traitement hebdomadaire. Bien que les équipes sachent que le dépassement est normal l’outil de supervision va émettre une alerte et générer une « pollution » du tableau de bord de suivi et probablement par courriel.
Malgré son caractère normal cet évènement va générer une action de traitement et d’acquittement. Or avec l’AIOps l’outil aura appris de lui-même le caractère normal de l’évènement et aucune alerte ne sera émise.
On le voit dans ce cas d’usage très classique, l’apport de ce type d’outil permet de réduire le bruit inutile au niveau de la supervision. Mais projetons-nous dans un SI plus actuel.
La présence d’infrastructure On Premise, dans le cloud, l’utilisation de conteneurs rend la tâche des opérations de plus en plus complexe et nécessite une flexibilité et une réactivité toujours plus forte.
C’est dans ce contexte que l’AIOps a un vrai rôle à jouer dans l’assistance des équipes.
Quels sont les avantages ?
Une fois l’AIOps correctement mis en œuvre (disposant de suffisamment d’informations à collecter et d’algorithmes d’apprentissage adaptés), l’apport dans le quotidien des équipes est indéniable.
Comme on l’a vu précédemment la qualité et la pertinence de la supervision est un vrai gain de temps. Certains éditeurs avancent une réduction du bruit des événements de 90% mais tout dépend du paramétrage et du périmètre de collecte de la solution.
De plus la capacité d’apprentissage et de corrélation des données permet à la solution de remonter des alertes prédictives.
Prenons l’exemple de l’augmentation de l’activité du service VPN. L’outil ayant eu à disposition suffisamment d’informations pourra établir des ratios lui permettant de projeter les ressources du service disponibles en fonction du nombre d’utilisateur et de proposer une augmentation du service ou l’accroissement de la bande passante. Ce type d’alerte permet aux équipes d’engager des actions proactives et ainsi éviter des incidents.
Toujours grâce à la corrélation des données collectées, l’outil sera en mesure d’identifier les événements liés à un incident et mettre en évidence les causes ou a minima aider à l’analyse.
Enfin on peut très bien imaginer automatiser la correction des incidents et ainsi réduire le temps moyen de remise en état d’un service. Mais pour en arriver là il faut atteindre un degré de confiance élevé envers la solution. Transition toute trouver pour vous parler des inconvénients de l’AIOps.
Et les inconvénients ?
Pour arriver à déléguer l’automatisation de certaines tâches il faut avoir une totale confiance dans les outils, ce qui peut poser des difficultés à certaines entreprises.
Pour qu’un outil AIOps agisse en autonomie, il doit suivre avec précision les changements apportés à l’environnement cible, collecter et protéger les données, établir des conclusions correctes à partir des algorithmes disponibles et de l’apprentissage automatique, hiérarchiser correctement les actions et prendre automatiquement les mesures qui s’imposent pour respecter les priorités et les objectifs métier.
Pour que l’outil soit fiable et inspire confiance, cela nécessite un paramétrage et une mise en œuvre de qualité. Pour que les informations remontées soient pertinentes il faut s’assurer que les données collectées soient objectives et vérifiables. De même l’analyse qui en est fait est complétement dépendante des algorithmes qui auront été mis en place. Tout ceci demande du temps et des efforts considérables pour disposer d’une solution complète et fiable. Ceci est vrai à la mise en œuvre mais aussi dans le maintien de la solution.
Comment le mettre en œuvre ?
La mise en œuvre de ce type d’outil demande de la méthode et du temps. Certains éditeurs vous diront que pour exploiter la pleine mesure de leur outil il faut collecter le maximum d’informations.
Sur le principe ils ont raison puisque plus l’outil aura de données à exploiter plus son apport sera complet et précis. MAIS ce qu’ils ne vous disent pas c’est qu’ils facturent à la donnée collectée.
La bonne approche est d’installer la solution de manière progressive d’abord sur un petit périmètre puis élargir celui-ci en fonction des besoins. Pour que l’outil soit pleinement intégré par les équipes, il faut qu’elles y trouvent un réel intérêt.
Il est donc primordial de collecter le besoin auprès d’elles et de fournir des tableaux de bords adaptés. De plus les sources de données doivent être fiables et la qualité des données vérifiée régulièrement.
En conclusion
L’AIOps est un vrai plus pour les DSI. Une solution AIOps dédiée comme ITSI de Splunk, TRueSight de BMC ou encore Crosswork Situation Manager de Cisco sont surtout adaptées au grosse DSI qui dispose d’un SI hybride et complexe à gérer. L’investissement nécessaire à sa mise en œuvre sera difficile à supporter pour des DSI de petites tailles.
En revanche certains outils de supervision comme Data Dog intègrent certaines fonctionnalités AIOps dont le but est surtout de réduire le bruit des évènements et qui est plus adaptés aux petites structures.
Par Thibault LABRUT, Architecte Technique Infrastructure