Utilizando IA para mudar de uma gestão reativa para uma gestão proativa de incidentes graves.

Última atualização: 09 de dezembro de 2019 — Especialista em Análises com Inteligência Artificial

 

O que a previsão de tornados e grandes incidentes de TI têm em comum?

Quando o tempo piora, os sinais de que um tornado está a caminho são sempre ameaçadores, mas raramente óbvios.

“O céu ficou com a cor cinza mais estranha que eu já vi”, disse Mark Ausbrooks, sobrevivente de um tornado em Mayflower, Arkansas, em 2014. disse à NBC News“A gente sempre ouve falar de como tudo fica em silêncio, e não havia uma folha sequer se mexendo.”

Uma pessoa comum, sem conhecimento de meteorologia, consegue perceber essas anomalias, mas terá dificuldade em processar essa informação e transformá-la numa mensagem clara: “PERIGO À FRENTE! ABRIGUE-SE.”

Da mesma forma, sinais reveladores de um incidente de TI grave iminente podem estar por toda parte, mas serão ignorados se não forem reunidos de forma a indicar e antecipar o risco.

O que a TI precisa para prever e, possivelmente, evitar esses incidentes é um sistema como o que o Serviço Nacional de Meteorologia usa para prever e alertar as pessoas sobre possíveis eventos climáticos severos. Esses sistemas não consideram apenas um fator. Em vez disso, reúnem um conjunto de todos os fatores de risco conhecidos para formar um panorama geral da probabilidade de risco.

Os meteorologistas sabem que devem analisar a geografia, a época do ano, a presença de tempestades, a pressão barométrica e sua tendência, o nível de umidade em altitudes baixas e médias e a presença de correntes ascendentes em seus modelos de previsão de tornados. Se esses elementos atingirem uma determinada faixa, criam condições favoráveis ​​para a formação de um tornado.

As autoridades analisam esse risco e determinam se devem ativar um sistema de vigilância ou alerta, e possivelmente emitir ordens de evacuação. Além disso, o modelo permite que as autoridades localizem o risco e direcionem suas ações preventivas.

Um novo sistema com suporte de IA criado por Digital.ai Traz essas mesmas capacidades para as organizações de TI, permitindo que elas respondam a possíveis desastres iminentes antes que causem grandes interrupções e danos.

Apresentamos um novo sistema baseado em IA para previsão de risco de incidentes graves.

Hoje, estamos lançando oficialmente nosso Motor de Previsão de Risco de Incidentes Graves para ajudar organizações a prever e prevenir interrupções de serviço, utilizando, essencialmente, os mesmos princípios que o Serviço Nacional de Meteorologia usa para prever tornados. Nosso motor combina fatores de risco conhecidos para incidentes graves e os reúne em um modelo que pode indicar condições favoráveis. Além disso, ele também pode prever o impacto localizado de possíveis incidentes, dadas essas condições, e emitir um aviso apropriado para mitigação de riscos.

Essa nova funcionalidade está incluída em nosso pacote. Otimização do processo de gestão de serviços solução. Ela proporciona aos executivos de TI visibilidade sem precedentes e insights acionáveis ​​sobre seus processos de gerenciamento de serviços. Isso é feito incorporando os mesmos princípios comprovados que introduzimos inicialmente no Solução de Previsão de Risco de Mudança, que já proporcionou milhões de dólares em economias para diversas organizações em vários setores.

À medida que as organizações de TI evoluem para um ambiente de ritmo acelerado DevOps No modelo orientado a dados, um dos principais desafios que enfrentam é lidar com a escala e a complexidade dos incidentes que afetam os serviços e a infraestrutura de TI. A Gartner estima que O custo do tempo de inatividade ultrapassa os 300,000 dólares por hora.Além disso, um relatório de pesquisa da Quocirca sugere que incidentes duplicados e repetidos são um problema generalizado e persistente.

A maioria das organizações adota uma abordagem reativa para o gerenciamento de incidentes graves. O objetivo dessa abordagem é restaurar os serviços de negócios o mais rápido possível, e ela se baseia na redução do Tempo Médio para Detecção (MTTD) e do Tempo Médio para Resolução (MTTR). Um processo de resolução de problemas pós-incidente é utilizado para identificar e remediar permanentemente a causa raiz.

No entanto, as organizações são forçadas a arcar com o peso das consequências negativas antes mesmo de poderem iniciar sua resposta. Por sua vez, os líderes de TI reconhecem cada vez mais as limitações dessa abordagem. Pesquisas da Quocirca sugerem que 80% das organizações acreditam que seu MTTD (Tempo Médio para Detecção) de incidentes poderia ser melhorado.

Uma abordagem proativa para a gestão de incidentes graves é muito mais promissora e aproveita os recentes avanços em Inteligência Artificial (IA) e Aprendizado de Máquina (AM). O principal objetivo dessa abordagem é a detecção precoce de riscos potenciais. Ela se baseia na identificação de fatores de risco conhecidos para a organização, com base em eventos históricos, utilizando modelos de aprendizado de máquina. Esses modelos aprimoram suas capacidades preditivas ao longo do tempo, estabelecendo correlações mais fortes entre os fatores de risco que demonstraram maior potencial preditivo.

Como os modelos de IA e aprendizado de máquina podem prever possíveis incidentes graves antes que eles causem impacto.

As organizações podem usar a IA para monitorar a presença de combinações problemáticas de fatores de risco conhecidos. Dessa forma, elas se beneficiam de um sistema de alerta precoce para riscos de incidentes graves, permitindo que identifiquem proativamente períodos de alto risco. Esse "alerta precoce" coloca as organizações em uma posição vantajosa para minimizar ou eliminar riscos e estarem preparadas para lidar rapidamente com quaisquer incidentes.

Os benefícios de um processo proativo de gestão de incidentes são numerosos e mensuráveis. Ele pode:

  • Minimizar o impacto nas operações comerciais e na experiência do cliente.
  • Capacitar a TI para entregar novas funcionalidades dentro do prazo.
  • Melhore a reputação da TI e dos negócios em termos de confiabilidade.
  • Reduza os custos gerais de serviço

Todo modelo proativo de previsão de riscos deve ter três funções principais:

  1. Identificar fatores de risco comuns utilizando aprendizado de máquina ou outras técnicas analíticas avançadas.
  2. Monitore essas condições de risco operando usando um modelo de inteligência artificial, e
  3. Visualize as descobertas e notifique as principais partes interessadas sobre o risco potencial e o impacto previsto quando um limite de risco for atingido ou quando eventos de alto risco forem previstos.

Essas funções são essenciais não apenas para identificar riscos potenciais, mas também para colocar as equipes de TI em posição de agir preventivamente e lidar com possíveis incidentes graves antes que eles comecem a ter um impacto devastador.

Um modelo de previsão de risco de incidentes graves leva em consideração diversos fatores, como:

  • Volume de incidentes graves anteriores
  • Lista de problemas pendentes
  • Atividade de mudança planejada
  • Tendência histórica do intervalo de tempo entre incidentes graves
  • Dias desde o último incidente grave
  • Dia da semana e mês, idade média do problema
  • taxa de crescimento de incidentes menores

O modelo aprende quais atributos são os indicadores mais fortes de risco de incidentes graves e, portanto, pode indicar o nível de risco, bem como os fatores que o impulsionam.

Por exemplo, o modelo pode aprender que o risco aumenta quando o volume de incidentes menores sobe 15% acima da linha de tendência de médio prazo. Este modelo analítico baseado em IA monitora os fatores de risco para todos os aplicativos diariamente e calcula uma pontuação de risco composta para cada aplicativo com base nas condições atuais.

Os proprietários de aplicativos podem ser notificados quando seus aplicativos atingirem condições favoráveis ​​para a ocorrência de um incidente grave. Em seguida, eles podem analisar detalhadamente os fatores de risco específicos que elevam sua pontuação de risco composta e tomar medidas para entender e mitigar o risco.

Ao compreender os fatores de risco específicos, as equipes de suporte de aplicativos podem investigar os problemas subjacentes que estão aumentando o risco atual. A liderança de TI pode decidir suspender as alterações nos aplicativos específicos em risco até que as medidas de mitigação sejam implementadas.

Uma abordagem necessária e proativa para prevenir interrupções desastrosas nos negócios.

As ameaças de tornados e de grandes incidentes de TI são reais demais para simplesmente reagirmos a elas depois que já começaram a causar estragos. As equipes de TI podem e devem estar preparadas com antecedência. Os sistemas de previsão de riscos críticos são as ferramentas necessárias para proteger elementos essenciais do negócio, em vez de terem que lidar com as consequências de um incidente já ter devastado a organização.

Os sistemas e processos de operações de TI geram continuamente um conjunto rico de dados, mas as organizações de TI frequentemente carecem de uma perspectiva analítica para convertê-los em insights valiosos. Os líderes de TI podem aproveitar modelos de IA e ML para garantir proativamente a estabilidade dos serviços de negócios. Esses modelos podem analisar dados relevantes para identificar padrões que destacam quais aplicativos estão em risco quando ocorre uma combinação preocupante de condições.

Os modelos de previsão de incidentes graves e riscos de mudanças servem como um bom ponto de partida para a maioria das organizações de TI iniciarem a adoção de modelos de IA e ML para reduzir riscos e custos, ao mesmo tempo que oferecem serviços de alta qualidade aos seus stakeholders de negócios.

Quer saber mais? Assista ao nosso webinar recente que explica esses sistemas: “Como aprimorar o gerenciamento de incidentes graves usando análise preditiva e IA"

Também recomendamos