Utiliser l'IA pour passer d'une gestion réactive à une gestion proactive des incidents majeurs

Dernière mise à jour : 09 décembre 2019 — Expert en analyse basée sur l’IA

 

Points communs entre la prévision des tornades et les incidents informatiques majeurs

Lorsque le temps se gâte, les signes annonciateurs d'une tornade sont toujours inquiétants, mais rarement évidents.

« Le ciel a pris une teinte de gris des plus étranges, la plus bizarre que j'aie jamais vue », a déclaré Mark Ausbrooks, rescapé d'une tornade survenue en 2014 à Mayflower, dans l'Arkansas. dit NBC Nouvelles« On entend toujours dire que le ciel est d'un calme absolu, mais pas une feuille ne bougeait. »

Une personne lambda sans aucune connaissance en météorologie peut percevoir ces anomalies, mais elle aura du mal à transformer cette information en un message clair : « DANGER ! METTEZ-VOUS À L'ABRI. »

De la même manière, les signes avant-coureurs d'un incident informatique majeur imminent peuvent être partout, mais ils seront ignorés s'ils ne sont pas rassemblés de manière à indiquer et à anticiper le risque.

Pour prévoir, et éventuellement éviter, ces incidents, le secteur informatique a besoin d'un système similaire à celui utilisé par les services météorologiques nationaux pour prévoir et alerter la population en cas de phénomènes météorologiques violents. Ces systèmes ne se basent pas sur un seul facteur ; ils prennent en compte l'ensemble des facteurs de risque connus afin d'établir une vision globale de la probabilité du risque.

Les météorologues prennent en compte la géographie, la période de l'année, la présence d'orages, la pression atmosphérique et son évolution, le taux d'humidité à basse et moyenne altitude, ainsi que la présence de courants ascendants dans leurs modèles de prévision des tornades. Si ces éléments atteignent un certain seuil, ils créent des conditions favorables à la formation d'une tornade.

Les autorités examinent cette analyse des risques et déterminent s'il convient de déclencher une alerte ou une évacuation. De plus, le modèle leur permet de localiser le risque et de cibler leurs actions préventives.

Un nouveau système basé sur l'IA créé par Digital.ai offre ces mêmes capacités aux organisations informatiques, leur permettant de réagir aux catastrophes potentielles avant qu'elles ne provoquent des perturbations majeures et des dommages.

Présentation d'un nouveau système basé sur l'IA pour la prédiction des risques d'incidents majeurs

Aujourd'hui, nous lançons officiellement notre moteur de prévision des risques d'incidents majeurs afin d'aider les organisations à anticiper et à prévenir les interruptions de service. Ce moteur s'appuie sur les mêmes principes que ceux utilisés par le Service météorologique national pour prévoir les tornades. Il combine les facteurs de risque connus d'incidents majeurs et les intègre dans un modèle capable d'identifier les conditions favorables. De plus, il peut prédire l'impact localisé d'incidents potentiels compte tenu de ces conditions et émettre un avis approprié pour la gestion des risques.

Cette nouvelle fonctionnalité est incluse dans notre Optimisation des processus de gestion des services Cette solution offre aux responsables informatiques une visibilité sans précédent et des informations exploitables sur leurs processus de gestion des services. Elle y parvient en intégrant les mêmes principes éprouvés que nous avons initialement présentés dans la solution. Solution de prédiction des risques de changementqui a déjà permis à de nombreuses organisations de divers secteurs d'activité de réaliser des économies de plusieurs millions de dollars.

À mesure que les organisations informatiques évoluent vers un rythme rapide DevOps Dans ce modèle orienté, un défi majeur auquel ils sont confrontés consiste à gérer l'ampleur et la complexité des incidents affectant les services et l'infrastructure informatiques. Gartner estime que Le coût des temps d'arrêt dépasse largement 300 000 $ par heure.De plus, un rapport de recherche de Quocirca suggère que incidents similaires et répétés constituent un problème omniprésent et persistant.

La plupart des organisations adoptent une approche réactive de la gestion des incidents majeurs. Cette approche vise à rétablir les services opérationnels au plus vite et repose sur la réduction du délai moyen de détection (MTTD) et du délai moyen de résolution (MTTR). Un processus de résolution des problèmes post-incident est mis en œuvre pour identifier et corriger définitivement la cause profonde du problème.

Cependant, les organisations sont contraintes de subir de plein fouet les conséquences négatives avant de pouvoir réagir. De ce fait, les responsables informatiques reconnaissent de plus en plus les limites d'une telle approche. Une étude de Quocirca indique que 80 % des organisations estiment que leur délai moyen de résolution des incidents (MTTD) pourrait être amélioré.

Une approche proactive de la gestion des incidents majeurs est bien plus prometteuse et tire parti des avancées récentes en intelligence artificielle (IA) et en apprentissage automatique (AA). Son principal objectif est la détection précoce des risques potentiels. Elle repose sur l'identification des facteurs de risque connus de l'organisation, à partir d'événements passés, grâce à des modèles d'apprentissage automatique. Ces modèles améliorent leurs capacités prédictives au fil du temps, établissant des corrélations plus fortes entre les facteurs de risque ayant démontré le plus fort potentiel prédictif.

Comment l'IA et les modèles d'apprentissage automatique peuvent prédire d'éventuels incidents majeurs avant qu'ils n'aient un impact

Les organisations peuvent tirer parti de l'IA pour détecter les combinaisons problématiques de facteurs de risque connus. Elles bénéficient ainsi d'un système d'alerte précoce en cas de risque d'incident majeur, ce qui leur permet d'anticiper les périodes de haut risque. Cette alerte précoce leur permet de minimiser, voire d'éliminer, les risques et d'être prêtes à réagir rapidement à tout incident.

Les avantages d'un processus proactif de gestion des incidents sont nombreux et mesurables. Il permet notamment de :

  • Minimiser l'impact sur les opérations commerciales et l'expérience client
  • Donner aux services informatiques les moyens de déployer de nouvelles fonctionnalités dans les délais impartis.
  • Améliorer la réputation informatique et commerciale en matière de fiabilité
  • Réduire les coûts globaux des services

Tout modèle proactif de prédiction des risques devrait comporter trois fonctions essentielles :

  1. Identifier les facteurs de risque communs en tirant parti de l'apprentissage automatique ou d'autres techniques analytiques avancées,
  2. Surveiller ces conditions à risque en utilisant un modèle d'intelligence artificielle, et
  3. Visualisez les résultats et informez les parties prenantes clés du risque potentiel et de l'impact prévu lorsqu'un seuil de risque est atteint ou que des événements à haut risque sont prévus.

Ces fonctions sont essentielles non seulement pour identifier les risques potentiels, mais aussi pour permettre aux équipes informatiques d'agir de manière proactive afin de remédier aux incidents majeurs potentiels avant qu'ils n'aient un impact dévastateur.

Un modèle de prédiction des risques d'incidents majeurs prend en compte divers facteurs tels que :

  • Volume des incidents majeurs passés
  • Problèmes en attente
  • Activité de changement planifié
  • Évolution historique du temps entre les incidents majeurs
  • Nombre de jours écoulés depuis le dernier incident majeur
  • Jour de la semaine et du mois, âge moyen du problème
  • taux de croissance des incidents mineurs

Le modèle identifie les attributs qui sont les indicateurs les plus fiables du risque d'incident majeur et peut donc indiquer le niveau de risque ainsi que les facteurs à l'origine de ce niveau de risque.

Par exemple, le modèle pourrait constater que le risque augmente lorsque le volume d'incidents mineurs dépasse de 15 % la tendance à moyen terme. Ce modèle analytique basé sur l'IA surveille quotidiennement les facteurs de risque de toutes les applications et calcule un score de risque composite pour chacune d'elles en fonction des conditions actuelles.

Les propriétaires d'applications peuvent être avertis lorsque leur application présente des conditions propices à la survenue d'un incident majeur. Ils peuvent alors analyser en détail les facteurs de risque spécifiques qui font grimper leur score de risque global et prendre des mesures pour comprendre et atténuer ce risque.

En comprenant les facteurs de risque spécifiques, les équipes de support applicatif peuvent enquêter sur les problèmes sous-jacents qui aggravent le risque actuel. La direction informatique peut décider de geler les modifications apportées aux applications concernées jusqu'à ce que des mesures d'atténuation soient mises en œuvre.

Une approche proactive et nécessaire pour prévenir les perturbations catastrophiques des activités commerciales

Les menaces que représentent les tornades et les incidents informatiques majeurs sont trop réelles pour se contenter de réagir une fois qu'elles ont déjà semé le chaos. Les équipes informatiques peuvent et doivent se préparer en amont. Les systèmes de prévision des risques majeurs sont les outils dont elles ont besoin pour protéger les éléments essentiels à leur activité, plutôt que de devoir gérer les dégâts une fois l'incident dévastateur.

Les systèmes et processus d'exploitation informatique génèrent en permanence une grande quantité de données, mais les organisations informatiques manquent souvent d'outils d'analyse pour les transformer en informations exploitables. Les responsables informatiques peuvent tirer parti de l'IA et du ML pour garantir proactivement la stabilité des services métier. Ces modèles peuvent analyser les données pertinentes afin d'identifier les tendances qui mettent en évidence les applications à risque lorsqu'une combinaison de conditions critiques survient.

Les modèles de prédiction des risques liés aux incidents majeurs et aux changements constituent d'excellents points d'entrée pour la plupart des organisations informatiques souhaitant adopter des modèles d'IA et d'apprentissage automatique afin de réduire les risques et les coûts tout en fournissant des services de haute qualité à leurs parties prenantes.

Vous souhaitez en savoir plus ? Visionnez notre webinaire récent expliquant ces systèmes : « Comment améliorer la gestion des incidents majeurs grâce à l'analyse prédictive et à l'IA"

Vous aimerez aussi