AI를 사용하여 사후 대응적 주요 사고 관리에서 사전 대응적 주요 사고 관리로 전환

최종 업데이트: 2019년 12월 9일 — AI 기반 분석 전문가

 

토네이도 예측과 주요 IT 사고의 공통점

날씨가 나빠지면 토네이도가 다가온다는 징조가 항상 불길하게 느껴지지만, 눈에 띄게 나타나는 경우는 드뭅니다.

2014년 아칸소주 메이플라워에서 토네이도 생존자인 마크 오스브룩스는 "하늘이 내가 본 것 중 가장 이상한 회색빛으로 변했습니다."라고 말했습니다. NBC 뉴스 말했다. "항상 얼마나 고요해지는지 듣게 되는데, 나뭇잎 하나 움직이지 않아요."

기상학에 대한 지식이 없는 일반인도 이러한 이상 징후를 감지할 수는 있지만, 이 정보를 명확한 메시지로 처리하는 데는 어려움을 겪을 것입니다. "위험! 엄폐하세요."

마찬가지로, 임박한 주요 IT 사고를 알려주는 징후는 어디에나 있을 수 있지만, 위험을 나타내고 예측할 수 있는 방식으로 모아놓지 않았다면 무시될 것입니다.

IT 부서가 이러한 사고를 예측하고, 가능하다면 예방하기 위해 필요한 것은 국립기상청(National Weather Service)이 심각한 기상 활동 가능성을 예측하고 사람들에게 알리는 데 사용하는 것과 같은 시스템입니다. 이러한 시스템은 단 하나의 요소만 고려하지 않습니다. 알려진 모든 위험 요소를 종합하여 위험 발생 가능성에 대한 전반적인 그림을 그려냅니다.

기상학자들은 토네이도 예측 모델에서 지형, 계절, 뇌우 발생 여부, 기압 및 추세, 저고도 및 중고도의 습도, 그리고 상승 기류의 존재 여부를 살펴봅니다. 이러한 요소들이 특정 범위에 도달하면 토네이도 발생에 유리한 조건이 조성됩니다.

당국은 이러한 위험 분석을 검토하여 주의보 또는 경보 발령 여부와 대피 명령 발령 여부를 결정합니다. 또한, 이 모델을 통해 당국은 위험의 위치를 ​​파악하고 예방 조치를 집중적으로 시행할 수 있습니다.

새로운 AI 지원 시스템이 만들어졌습니다. Digital.ai IT 조직에도 동일한 역량을 제공하여, 큰 혼란과 피해를 일으키기 전에 잠재적으로 임박한 재해에 대응할 수 있도록 지원합니다.

중대 사고 위험 예측을 위한 새로운 AI 기반 시스템 소개

오늘, 저희는 국가기상청(National Weather Service)이 토네이도 예측에 사용하는 것과 동일한 원리를 사용하여 조직들이 서비스 중단을 예측하고 예방할 수 있도록 지원하는 중대 사고 위험 예측 엔진을 공식 출시합니다. 저희 엔진은 알려진 중대 사고 위험 요인들을 결합하여 유리한 상황을 나타낼 수 있는 모델을 구축합니다. 뿐만 아니라, 이러한 상황에서 발생할 수 있는 사고의 지역적 영향을 예측하고 위험 완화를 위한 적절한 권고를 발령할 수도 있습니다.

이 새로운 기능은 다음에 포함됩니다. 서비스 관리 프로세스 최적화 솔루션입니다. IT 임원에게 서비스 관리 프로세스에 대한 전례 없는 가시성과 실행 가능한 통찰력을 제공합니다. 이는 저희가 처음 도입했던 것과 동일한 검증된 원칙을 통합하여 가능합니다. 변경 위험 예측 솔루션, 이미 다양한 산업 분야의 다양한 조직에 수백만 달러의 비용 절감 효과를 가져왔습니다.

IT 조직이 빠르게 발전함에 따라 DevOps 지향 모델에서 IT 서비스 및 인프라에 영향을 미치는 사고의 규모와 복잡성을 해결하는 것은 그들이 직면한 핵심 과제입니다. 가트너는 다음과 같이 추정합니다. 가동 중지 비용은 시간당 300,000만 ​​달러를 훌쩍 넘습니다.. 또한 Quocirca의 연구 보고서에 따르면 중복 및 반복 사건 만연하고 지속적인 문제입니다.

대부분의 조직은 주요 사고 관리에 사후 대응적 접근 방식을 사용합니다. 이러한 접근 방식의 목표는 비즈니스 서비스를 최대한 빨리 복구하는 것이며, 평균 탐지 시간(MTTD)과 평균 해결 시간(MTTR)을 단축하는 데 중점을 둡니다. 사고 발생 후 문제 프로세스를 통해 근본 원인을 파악하고 영구적으로 해결합니다.

그러나 조직은 대응을 시작하기 전에 부정적인 결과를 감수해야 합니다. 결과적으로 IT 리더들은 이러한 접근 방식의 한계를 점점 더 인식하고 있습니다. Quocirca 연구에 따르면 조직의 80%가 사고 발생 시 MTTD(사고 대응 시간)를 개선할 수 있다고 생각합니다.

중대 사고 관리에 대한 선제적 접근 방식은 훨씬 더 큰 가능성을 제공하며, 인공지능(AI)과 머신러닝(ML)의 최신 기술을 활용합니다. 이 접근 방식의 주요 목표는 잠재적 위험을 조기에 감지하는 것입니다. 머신러닝 모델을 사용하여 과거 이벤트를 기반으로 조직의 알려진 위험 요소를 파악하는 데 의존합니다. 이러한 모델은 시간이 지남에 따라 예측 능력을 향상시켜 가장 예측 가능성이 높은 위험 요소 간의 상관관계를 더욱 강화합니다.

AI와 머신 러닝 모델이 영향을 미치기 전에 잠재적인 주요 사건을 예측할 수 있는 방법

조직은 AI를 활용하여 알려진 위험 요소들의 문제 조합을 모니터링할 수 있습니다. 또한, 주요 사고 위험에 대한 조기 경보 시스템을 활용하여 향후 발생할 수 있는 고위험 상황을 사전에 인지할 수 있습니다. 이러한 "조기 경보"를 통해 조직은 위험을 최소화하거나 제거하고 모든 사고에 신속하게 대응할 수 있는 유리한 위치에 서게 됩니다.

사전 예방적 사고 관리 프로세스의 이점은 다양하고 측정 가능합니다. 다음과 같은 효과가 있습니다.

  • 비즈니스 운영 및 고객 경험에 미치는 영향을 최소화합니다.
  • IT가 일정에 맞춰 새로운 기능을 제공할 수 있도록 지원
  • 신뢰성을 통해 IT 및 비즈니스 평판을 개선하세요
  • 전반적인 서비스 비용 절감

모든 사전적 위험 예측 모델에는 세 가지 핵심 기능이 있어야 합니다.

  1. 머신 러닝이나 기타 고급 분석 기술을 활용하여 일반적인 위험 요소를 식별합니다.
  2. 인공 지능 모델을 사용하여 이러한 위험 조건을 모니터링하고
  3. 위험 임계값에 도달하거나 고위험 사건이 예측되면 결과를 시각화하고 주요 당사자에게 잠재적 위험과 예상되는 영향을 알립니다.

이러한 기능은 잠재적 위험을 식별하는 데 필수적일 뿐만 아니라 IT 팀이 파괴적인 영향을 미치기 전에 잠재적인 주요 사고를 예방적으로 해결하기 위해 조치를 취할 수 있는 위치에 있도록 하는 데도 필수적입니다.

중대한 사고 위험 예측 모델은 다음과 같은 다양한 요소를 고려합니다.

  • 과거 주요 사건 발생 건수
  • 문제 백로그
  • 계획된 변경 활동
  • 주요 사건 간 시간의 역사적 추세
  • 마지막 주요 사건 이후 일수
  • 주중 및 월중 시간, 평균 문제 발생 연령
  • 사소한 사건 증가율

이 모델은 중대 사고 위험을 나타내는 가장 강력한 지표가 무엇인지 학습하고, 이를 통해 위험 수준과 그 위험 수준을 유발하는 요인을 나타낼 수 있습니다.

예를 들어, 모델은 경미한 사고 발생 건수가 중기 추세선보다 15% 증가할 때 위험이 높아진다는 것을 학습할 수 있습니다. 이 AI 기반 분석 모델은 모든 애플리케이션의 위험 요소를 매일 모니터링하고 현재 상황을 기반으로 각 애플리케이션의 복합 위험 점수를 계산합니다.

애플리케이션 소유자는 애플리케이션이 중대한 사고 발생에 유리한 조건에 도달하면 알림을 받을 수 있습니다. 이를 통해 복합 위험 점수를 높이는 특정 위험 요소를 면밀히 분석하고 위험을 이해하고 완화하기 위한 조치를 취할 수 있습니다.

애플리케이션 지원팀은 특정 위험 요소를 파악함으로써 현재 위험을 증가시키는 근본적인 문제를 조사할 수 있습니다. IT 경영진은 완화 조치가 취해질 때까지 위험에 처한 특정 애플리케이션에 대한 변경을 동결하기로 결정할 수 있습니다.

재난적인 비즈니스 중단을 방지하기 위한 필수적이고 사전 예방적 접근 방식

토네이도와 주요 IT 사고의 위협은 너무나 현실적이어서 이미 현장에 큰 피해를 입힌 후에는 단순히 대응하기 어렵습니다. IT 팀은 사전에 대비할 수 있으며, 반드시 대비해야 합니다. 주요 위험 예측 시스템은 사고가 조직을 휩쓸고 지나간 후 ​​남은 잔해를 수습하는 것이 아니라, 필수적인 비즈니스 가치를 보호하는 데 필요한 도구입니다.

IT 운영 시스템과 프로세스는 지속적으로 풍부한 데이터를 생성하지만, IT 조직은 이를 풍부한 인사이트로 전환할 분석적 시각이 부족한 경우가 많습니다. IT 리더는 AI 및 ML 모델을 활용하여 비즈니스 서비스 안정성을 선제적으로 확보할 수 있습니다. 이러한 모델은 관련 데이터를 분석하여 불길한 상황이 복합적으로 발생할 때 어떤 애플리케이션이 위험에 처해 있는지를 보여주는 패턴을 파악할 수 있습니다.

주요 사고 및 변경 위험 예측 모델은 대부분 IT 조직이 비즈니스 이해 관계자에게 고품질 서비스를 제공하는 동시에 위험과 비용을 줄이기 위해 AI 및 ML 모델을 도입하기 시작하는 데 적합한 진입점 역할을 합니다.

더 자세히 알고 싶으신가요? 이 시스템을 설명하는 최근 웨비나를 시청해 보세요.예측 분석 및 AI를 활용하여 주요 사고 관리를 개선하는 방법"

당신은 또한 좋아할 거라