發佈時間:12月9,2019
利用人工智慧將重大事件管理從被動應對轉變為主動預防
預測龍捲風和重大IT事故的共同點
天氣惡劣時,龍捲風即將出現的跡象總是令人擔憂——但這些跡像很少很明顯。
「天空變成了我見過的最奇怪的灰色,」2014年阿肯色州梅弗勞爾龍捲風的倖存者馬克奧斯布魯克斯說道。 告訴NBC新聞“你總是聽說這裡靜得出奇,但這裡連一片葉子都沒動一下。”
即使是不懂氣象學的普通人也能察覺到這些異常情況,但他們很難將這些信息轉化為清晰的信息:“前方危險!快找掩護!”
同樣,即將發生重大 IT 事件的蛛絲馬跡可能隨處可見,但如果不將它們以能夠指示和預測風險的方式結合起來,它們就會被忽視。
IT部門需要一套類似美國國家氣象局用於預測和預警極端天氣事件的系統,才能預測並盡可能避免這些事件的發生。這類系統並非只關注單一因素,而是會綜合考慮所有已知的風險因素,從而全面評估風險機率。
氣象學家在建構龍捲風預測模型時,會考慮地理位置、季節、雷暴天氣、氣壓及其變化趨勢、中低層大氣濕度以及上升氣流等因素。如果這些因素達到一定程度,就會形成有利於龍捲風形成的條件。
當局會參考這份風險分析報告,決定是否啟動預警或警報,以及是否發布疏散命令。此外,該模型還能幫助當局確定風險的局部範圍,並更有針對性地採取預防措施。
由…創建的新型人工智慧支援系統 Digital.ai 將這些能力帶給 IT 組織,使他們能夠在潛在的災難造成重大中斷和損失之前做出回應。
推出基於人工智慧的重大事故風險預測新系統
今天,我們正式推出重大事件風險預測引擎,旨在協助各機構預測和預防服務中斷。該引擎採用的原理與美國國家氣象局預測龍捲風的原理基本相同。它整合了已知的重大事件風險因素,並將其建構成一個模型,該模型能夠預測有利條件。不僅如此,它還能在這些條件下預測潛在事件的局部影響,並發布相應的風險緩解建議。
這項新功能已包含在我們的…中 服務管理流程優化 該解決方案為 IT 高管提供了前所未有的服務管理流程視覺和可操作的見解。它透過融合我們最初在…中提出的那些行之有效的原則來實現這一點。 變更風險預測解決方案這項技術已經為各行各業的眾多組織節省了數百萬美元。
隨著IT組織向快節奏的發展 DevOps 在以IT服務為導向的模式中,他們面臨的一個關鍵挑戰是應對影響IT服務和基礎設施的事件的規模和複雜性。 Gartner估計, 停機造成的損失每小時超過 300,000 萬美元。此外,Quocirca 的一份研究報告顯示: 重複事件 這是一個普遍存在且持續存在的問題。
大多數組織對重大事件管理採取被動應對的方式。這種方式的目標是盡快恢復業務服務,其主要手段是縮短平均檢測時間 (MTTD) 和平均修復時間 (MTTR)。事後問題處理流程用於識別並徹底解決根本原因。
然而,企業往往被迫承受負面後果的衝擊,才能著手應對。反過來,IT 領導者也越來越意識到這種方法的限制。 Quocirca 的研究表明,80% 的企業認為其事件平均處理時間 (MTTD) 有待提高。
主動式重大事件管理方法更具優勢,並充分利用了人工智慧 (AI) 和機器學習 (ML) 的最新進展。該方法的主要目標是及早發現潛在風險。它依賴於基於歷史事件,利用機器學習模型來識別組織已知的風險因素。這些模型會隨著時間的推移不斷提升預測能力,從而增強那些已展現出最強預測潛力的風險因素之間的相關性。
人工智慧和機器學習模型如何預測可能發生的重大事件及其影響
組織可以利用人工智慧來監控已知風險因素組合是否有問題。這樣,組織就能受益於重大事件風險預警系統,從而主動識別即將到來的高風險時期。這種「預警」使組織能夠更好地將風險降至最低或消除風險,並做好快速應對任何事件的準備。
主動式事件管理流程的益處眾多且可衡量。它可以:
- 最大程度減少對業務營運和客戶體驗的影響
- 賦予 IT 能力,使其能夠按計劃交付新功能
- 提升IT和業務可靠度聲譽
- 降低整體服務成本
所有主動式風險預測模型都應具備三個核心功能:
- 利用機器學習或其他先進分析技術識別常見風險因素
- 利用人工智慧模型監測這些風險狀況,並
- 當達到風險閾值或預測到高風險事件時,將調查結果視覺化,並通知關鍵各方潛在風險和預測影響。
這些功能不僅對於識別潛在風險至關重要,而且對於使 IT 團隊能夠先發制人地採取行動,在可能發生的重大事件造成毀滅性影響之前加以解決也至關重要。
重大事故風險預測模型考慮了多種因素,例如:
- 過去重大事故量
- 問題積壓
- 規劃變更活動
- 重大事件發生時間間隔的歷史趨勢
- 自上次重大事件發生以來已過數天
- 星期幾和月份幾,平均問題年齡
- 輕微事故成長率
此模型學習哪些屬性是重大事件風險的最強指標,因此可以指示風險等級以及導致該風險等級的驅動因素。
例如,模型可能會發現,當輕微事故數量比中期趨勢線高出 15% 時,風險就會增加。這種基於人工智慧的分析模型每天監控所有應用程式的風險因素,並根據當前情況計算每個應用程式的綜合風險評分。
當應用程式達到可能發生重大事件的有利條件時,應用程式擁有者會收到通知。然後,他們可以深入分析導致綜合風險評分上升的特定風險因素,並採取措施了解和降低風險。
透過了解具體的風險因素,應用支援團隊可以調查導致當前風險加劇的根本問題。 IT 管理層可能會決定凍結存在風險的特定應用的變更,直到採取緩解措施為止。
預防災難性業務中斷的必要且積極主動的方法
龍捲風和重大IT事故的威脅都非常真實,不能等到它們造成嚴重破壞後再被動應對。 IT團隊可以而且必須事先做好準備。重大風險預測系統是他們保護關鍵業務資產所需的工具,而不是在事故發生後才收拾殘局。
IT維運系統和流程會持續產生大量數據,但IT組織往往缺乏分析工具將其轉化為有價值的洞察。 IT領導者可以利用人工智慧和機器學習模型,主動確保業務服務的穩定性。這些模型可以分析相關數據,識別出在出現某些不利條件組合時可能存在風險的應用程式模式。
重大事件和變更風險預測模型是大多數 IT 組織開始採用 AI 和 ML 模型以降低風險和成本,同時向其業務利害關係人提供高品質服務的良好切入點。
想了解更多?觀看我們最近舉辦的網路研討會,了解這些系統:“如何利用預測分析和人工智慧來改善重大事件管理“