AIを活用して、事後対応型から予防型の重大インシデント管理に移行する

最終更新日 2019年12月9日 — AIを活用した分析の専門家

 

竜巻の予測と大規模なITインシデントの共通点

天候が悪化すると、地平線上に竜巻があるという兆候が常に不吉なものになりますが、それが明白にわかることはめったにありません。

「空は今まで見た中で最も奇妙な灰色に変わった」と、2014年にアーカンソー州メイフラワー号で竜巻を生き延びたマーク・オースブルックスは言う。 NBCニュースに語りました「いつも静かになるって聞くけど、葉っぱ一枚も動いてないよ。」

気象学の知識がない一般の人でも、こうした異常事態は察知できますが、その情報を「この先危険!避難してください」という明確なメッセージとして理解するのは難しいでしょう。

同様に、差し迫った重大な IT インシデントの兆候は至る所にあるかもしれませんが、リスクを示して予測できるような形でまとめられなければ、無視されてしまいます。

こうした事態を予測し、場合によっては回避するためにIT部門に必要なのは、国立気象局が悪天候の可能性を予測し、人々に警告するために使用しているようなシステムです。これらのシステムは、単一の要因だけに注目するのではなく、既知のリスク要因をすべて組み合わせて、リスク発生確率の全体像を描き出します。

気象学者は、竜巻予測モデルにおいて、地形、季節、雷雨の有無、気圧とその傾向、低高度から中高度の湿度、上昇気流の有無を考慮することを知っています。これらの要素が一定範囲に達すると、竜巻が発生しやすい条件が整います。

当局はこのリスク分析に基づき、警戒レベルや警報、さらには避難指示を発令するかどうかを決定します。さらに、このモデルは、当局がリスクを局所的に特定し、予防措置を的確に講じることを可能にします。

AIを活用した新しいシステムは Digital.ai 同じ機能を IT 組織にも提供し、大きな混乱や損害が発生する前に、差し迫った災害に対応できるようにします。

重大インシデントリスク予測のための新しいAIベースのシステムの導入

本日、私たちは、組織がサービス中断を予測し、防止するのに役立つ重大インシデントリスク予測エンジンを正式にリリースします。このエンジンは、国立気象局が竜巻予測に用いる原理と基本的に同じ原理を用いています。このエンジンは、既知の重大インシデントリスク要因を組み合わせ、好ましい状況を示すモデルを構築します。さらに、これらの状況下で起こり得るインシデントの局所的な影響を予測し、リスク軽減のための適切な勧告を発出することも可能です。

この新しい機能は、 サービス管理プロセスの最適化 このソリューションは、ITエグゼクティブに、サービス管理プロセスに関するこれまでにない可視性と実用的な洞察を提供します。これは、私たちが最初に導入した実証済みの原則を組み込むことによって実現されます。 変更リスク予測ソリューションはすでに、さまざまな業界にわたるさまざまな組織に数百万ドルの節約をもたらしています。

IT組織が急速に進化するにつれて、 DevOps 指向モデルにおいて、彼らが直面する主要な課題は、ITサービスとインフラに影響を及ぼすインシデントの規模と複雑さに対処することである。ガートナーは、 ダウンタイムのコストは1時間あたり30万ドルをはるかに超えるさらに、Quocircaの調査レポートによると、 重複した事件の繰り返し 広範囲かつ永続的な問題です。

多くの組織は、重大インシデント管理において事後対応型のアプローチを採用しています。このアプローチの目標は、ビジネスサービスを可能な限り迅速に復旧することであり、平均検出時間(MTTD)と平均解決時間(MTTR)の短縮に大きく依存しています。インシデント発生後の問題対応プロセスは、根本原因を特定し、恒久的に修復するために用いられます。

しかし、組織は対応を開始する前に、悪影響の矢面に立たされることになります。その結果、ITリーダーたちは、このようなアプローチの限界をますます認識するようになっています。Quocircaの調査によると、80%の組織がインシデント発生時のMTTD(平均時損失時間)を改善できると感じています。

重大インシデント管理におけるプロアクティブなアプローチは、人工知能(AI)と機械学習(ML)の近年の進歩を活用し、はるかに大きな可能性を秘めています。このアプローチの主な目的は、潜在的なリスクを早期に検知することです。機械学習モデルを用いて、過去のイベントに基づいて組織における既知のリスク要因を特定します。これらのモデルは時間の経過とともに予測能力を向上させ、最も予測力の高いリスク要因間の相関関係を強化します。

AIと機械学習モデルが、重大なインシデントが実際に影響を及ぼす前にどのように予測できるか

組織はAIを活用し、既知のリスク要因の不適切な組み合わせを監視できます。これにより、重大インシデントリスクに対する早期アラートシステムの恩恵を受け、今後の高リスク期間を事前に把握できるようになります。この「早期アラート」により、組織はリスクを最小限に抑え、あるいは排除し、あらゆるインシデントに迅速に対応できる態勢を整えることができます。

プロアクティブなインシデント管理プロセスには、数多くの測定可能なメリットがあります。そのメリットは以下のとおりです。

  • ビジネス運営と顧客体験への影響を最小限に抑える
  • IT 部門が新しい機能をスケジュールどおりに提供できるように支援します
  • ITとビジネスの信頼性の評判を向上
  • 全体的なサービスコストを削減

すべてのプロアクティブなリスク予測モデルには、次の 3 つのコア機能が必要です。

  1. 機械学習やその他の高度な分析技術を活用して共通のリスク要因を特定し、
  2. 人工知能モデルを使用してこれらのリスク条件を監視し、
  3. リスクしきい値に達した場合、または高リスクのイベントが予測された場合に、調査結果を視覚化し、潜在的なリスクと予測される影響を主要な関係者に通知します。

これらの機能は、潜在的なリスクを特定するだけでなく、重大なインシデントが壊滅的な影響を及ぼす前に、IT チームが事前に行動を起こして対処できるようにするためにも不可欠です。

重大インシデントリスク予測モデルでは、次のようなさまざまな要因を考慮します。

  • 過去の重大インシデント件数
  • 問題のバックログ
  • 計画された変更活動
  • 重大事件発生間隔の歴史的傾向
  • 前回の重大事件から数日
  • 週と月の時間帯、問題の平均年齢
  • 軽微なインシデントの増加率

モデルは、重大なインシデントのリスクを示す最も強力な指標となる属性を学習し、それによってリスクのレベルとそのリスク レベルの背後にある要因を示すことができます。

例えば、軽微なインシデントの発生件数が中期トレンドラインより15%上昇すると、モデルはリスクが高まると学習します。このAIベースの分析モデルは、すべてのアプリケーションのリスク要因を毎日監視し、現在の状況に基づいて各アプリケーションの複合リスクスコアを計算します。

アプリケーション所有者は、アプリケーションが重大なインシデント発生の好条件に達した際に通知を受け取ることができます。その後、複合リスクスコアを押し上げている特定のリスク要因を詳細に分析し、リスクを理解し軽減するための対策を講じることができます。

具体的なリスク要因を理解することで、アプリケーションサポートチームは、現在のリスクを増大させている根本的な問題を調査できます。ITリーダーは、リスク軽減策が講じられるまで、リスクのある特定のアプリケーションの変更を凍結することを決定する場合があります。

事業の壊滅的な混乱を防ぐための必要な積極的なアプローチ

竜巻と大規模ITインシデントの脅威は、地上で既に大混乱を引き起こし始めてから対処するだけでは、あまりにも現実的です。ITチームは事前に準備を整える必要があり、また備えるべきでもあります。大規模リスク予測システムは、インシデントが組織を襲った後に残骸を拾い集めるのではなく、ビジネスにとって不可欠な価値を守るために必要なツールです。

IT運用システムとプロセスは豊富なデータセットを継続的に生成しますが、IT組織にはそれを豊富なインサイトに変換するための分析レンズが不足していることがよくあります。ITリーダーは、AIとMLモデルを活用して、ビジネスサービスの安定性をプロアクティブに確保することができます。これらのモデルは関連データを分析することで、不吉な条件の組み合わせが発生した際にどのアプリケーションが危険にさらされているかを示すパターンを特定できます。

重大なインシデントおよび変更リスク予測モデルは、ほとんどの IT 組織にとって、リスクとコストを削減しながらビジネス ステークホルダーに高品質のサービスを提供する AI および ML モデルの導入を開始するための優れたエントリ ポイントとして機能します。

さらに詳しく知りたいですか?これらのシステムについて解説した最近のウェビナーをご覧ください。予測分析とAIを活用した重大インシデント管理の改善方法

お勧めの関連ガジェット