原文刊載于博文視點公眾號,作者擎創(chuàng)科技 當(dāng)前互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)發(fā)展迅猛,從事各個行業(yè)的企業(yè)為了應(yīng)對日趨激烈的市場競爭,紛紛進行了數(shù)字化轉(zhuǎn)型,利用移動互聯(lián)網(wǎng)技術(shù)、云計算及大數(shù)據(jù)等新興信息技術(shù)發(fā)展企業(yè)的數(shù)字服務(wù),從而吸引客戶,幫助銷售和推廣產(chǎn)品,提升客戶體驗。 然而,隨之而來的是規(guī)模不斷擴大的IT系統(tǒng)、日益復(fù)雜的系統(tǒng)架構(gòu),以及海量的IT運維數(shù)據(jù),同時公司業(yè)務(wù)對IT系統(tǒng)的連續(xù)性要求也進一步提高。 面對這些新形勢下的挑戰(zhàn),IT 運維管理(ITOM)需要從原有的人工加被動響應(yīng),轉(zhuǎn)變?yōu)楦咝?、更智能化的運維體系,為新形勢下的IT系統(tǒng)保駕護航。 當(dāng)前傳統(tǒng)的 ITOM 工具往往缺乏分析能力,雖然也能采集到運維數(shù)據(jù),但無法對這些數(shù)據(jù)所包含的信息進行洞察,更加無法將數(shù)據(jù)進行知識化的本質(zhì)提升。研究機構(gòu)Forrester 曾在之前的一份報告中指出:“這些工具為我們提供了大量的原始數(shù)據(jù),但能洞察出埋在這些數(shù)據(jù)中的有價值信息的能力還是非常稀缺的?!?/span>(來源:Turn Big Data Inward With ITAnalytics) 令IT運維團隊感到欣慰的是,智能運維(AIOps)踏著人工智能的時代浪潮應(yīng)運而生。 Gartner在2016年發(fā)布的報告中首先提出了基于大數(shù)據(jù)及算法(Algorithmic IT Operations)的 IT運維概念。隨著人工智能的快速興起,Gartner 將 AIOps 的概念從原本的基于大數(shù)據(jù)及算法,擴充為基于人工智能(Artificial Intelligence for IT Operations,AIOps),期望通過大數(shù)據(jù)、現(xiàn)代機器學(xué)習(xí)及更多高級分析技術(shù),提供具備主動性、人性化及動態(tài)可視化的能力,直接或間接地提升目前傳統(tǒng)IT運維(監(jiān)控、自動化、服務(wù)臺)的能力。 AIOps 為IT運維提供了全新的管理思路。AIOps 的定義涵蓋的兩個階段,可概括為兩個層次的提升:數(shù)據(jù)到信息分析層次的提升;信息到知識提取層次的提升。 從數(shù)據(jù)到信息的分析,更多的是采用數(shù)據(jù)統(tǒng)計方法,幫助運維相關(guān)人員更好地從眾多運維數(shù)據(jù)中了解系統(tǒng)的運行狀態(tài),分析并定位故障,實時獲取統(tǒng)計數(shù)據(jù)。而信息到知識的提升更多的是希望借助人工智能算法,在信息分析的基礎(chǔ)上通過機器學(xué)習(xí)的方式實現(xiàn)異常狀況檢測、故障/趨勢分析、故障關(guān)聯(lián)和精準(zhǔn)告警。 根據(jù)權(quán)威機構(gòu)Gartner的預(yù)測,比起現(xiàn)今5%這樣的數(shù)據(jù)比例,到 2019 年,全球25%的公司都將系統(tǒng)性部署實施 AIOps 平臺支持兩個及以上的主要 IT 運維功能。到2022年,40% 的大型企業(yè)會通過大數(shù)據(jù)和機器學(xué)習(xí)的能力來幫助甚至逐漸取代傳統(tǒng)運維中的監(jiān)控、服務(wù)臺及自動化流程。 AIOps重新定義了IT運維的管理方式,為IT運維團隊適時提供適當(dāng)信息,以便實現(xiàn)以下幾點。
那么AIOps究竟在IT運維中有哪有典型的應(yīng)用場景呢?常見的場景大致如下。
以一個典型金融行業(yè)為例,他們有上百個業(yè)務(wù)系統(tǒng),面對每天產(chǎn)生的大量日志數(shù)據(jù)(幾TB),日常運維過程中,當(dāng)運維人員需要排錯或日志巡檢時,需要逐臺登錄服務(wù)器, 無法集中查看和管理日志數(shù)據(jù);另外,日志查詢方式比較原始, 比如 Windows 服務(wù)器,手動查看Event Log, Linux服務(wù)器則只能通過less、grep和awk等常見的Linux指令,無法從時間段、關(guān)鍵字、字段值統(tǒng)計等方面進行多維度查詢。 AIOps平臺通過收集各類數(shù)據(jù)源(包括操作系統(tǒng)、系統(tǒng)軟件、數(shù)據(jù)庫、應(yīng)用日志等),統(tǒng)一進行管理。不同于以往每次僅可查看數(shù)量有限的幾種日志,運維人員可通過智能運維平臺所提供的關(guān)鍵字、統(tǒng)計函數(shù)、單條件、多條件、模糊查找等功能,在多個系統(tǒng)中快速定位故障信息,幫助運維人員從全局視角查看系統(tǒng)的運維數(shù)據(jù)信息。
AIOps將各系統(tǒng)的運維數(shù)據(jù)進行統(tǒng)計分析并生成各類實時報表,對各類運維數(shù)據(jù)(如應(yīng)用日志、交易日志、系統(tǒng)日志)進行多維度、多角度深入分析及可視化展現(xiàn),以業(yè)務(wù)視角實時展示各種業(yè)務(wù)指標(biāo),具體如下。
實時采集各類運維數(shù)據(jù)(日志、監(jiān)控系統(tǒng)告警、性能數(shù)據(jù)等),通過對歷史數(shù)據(jù)的挖掘和分析,AIOps 可以找出哪些告警和事件是頻繁一起出現(xiàn)的,并將其認(rèn)看作同一類故障的告警,從而把多個告警和指標(biāo)合并,推送給運維人員,做到精細(xì)化告警,避免傳統(tǒng)監(jiān)控工具因一故障而導(dǎo)致的告警風(fēng)暴,生產(chǎn)告警噪音。
通過運維數(shù)據(jù)可視化(復(fù)雜多維報表,熱力圖)及精細(xì)化告警信息,結(jié)合以前發(fā)現(xiàn)問題的經(jīng)驗知識庫和模型,從而將運維信息從平面變?yōu)榱Ⅲw,立體展現(xiàn)故障樹分析,通過推導(dǎo)路徑使運維人員對于問題的定位更加快速、直觀,使得問題的解決更加容易。
進行數(shù)據(jù)挖掘,生成分析類報表,進行趨勢/容量/故障預(yù)測。例如,某些故障之間有時間上的先后關(guān)系,交換頁不足、內(nèi)存不足會逐漸導(dǎo)致系統(tǒng)故障或應(yīng)用故障,該系統(tǒng)建立關(guān)聯(lián)模型,發(fā)現(xiàn)前者故障,提醒用戶可能后繼可能發(fā)生系統(tǒng)故障或應(yīng)用故障。在故障產(chǎn)生真正業(yè)務(wù)影響前,告知運維人員事先解決問題。
通過采集海量多維度數(shù)據(jù),構(gòu)建多元結(jié)構(gòu)化底層數(shù)據(jù)倉庫,以搭積木的方式適配各類運維場景,并在場景里刻畫系統(tǒng)和人員畫像,通過畫像形式來輔助企業(yè)進行 IT 決策。 AIOps與現(xiàn)有ITOM平臺的關(guān)系具體如何呢?傳統(tǒng)IT運維管理平臺,即 ITOM 平臺,往往是為完成單一管理任務(wù)而設(shè)計的,更偏向于管理某一細(xì)分專業(yè)領(lǐng)域。
而AIOps平臺則構(gòu)建在傳統(tǒng)ITOM平臺的上層,把ITOM作為分析的源頭,通過接口集成將各個 ITOM平臺組件中的孤立運維數(shù)據(jù)進行匯總,使其突破數(shù)據(jù)孤島的壁壘,其次借助自身的關(guān)聯(lián)分析、機器學(xué)習(xí)、數(shù)據(jù)建模、全局搜索能力,幫助企業(yè)從IT系統(tǒng)的行為、狀態(tài)、配置、故障和事件中等多個維度,產(chǎn)生趨勢預(yù)判、快速故障定位和商業(yè)洞察等價值。 在信息架構(gòu)與應(yīng)用系統(tǒng)日漸龐大的今天,如果再通過人工分析定位的運維方式,很難適應(yīng)目前日益快速增長的業(yè)務(wù)需求。規(guī)模不斷擴大的 IT 系統(tǒng)、日益復(fù)雜的系統(tǒng)架構(gòu),以及海量的 IT 運維數(shù)據(jù)對使用傳統(tǒng)ITOM的運維人員而言都如芒在背。 因此,我們有理由相信AIOps能夠幫助企業(yè)及各類運維人員在大數(shù)據(jù)中找到合適的發(fā)展模式?,F(xiàn)在是時候用一些類似人工智能的思維方式來為IT產(chǎn)業(yè)服務(wù),使大數(shù)據(jù)的分析方向轉(zhuǎn)到IT運維上了。 夏洛克 AIOps Make Data Think 人工智能 | 機器學(xué)習(xí) | IT運維 |
|