在IT行業(yè),運(yùn)維人常常自我調(diào)侃“賺著5k的月薪,操著5千萬的心,名下掛著5億的資產(chǎn)”。機(jī)房的暖通、網(wǎng)絡(luò)、綜合布線,系統(tǒng)的監(jiān)控告警、故障響應(yīng)等一大堆繁雜瑣碎的工作,充斥著運(yùn)維人的日常。與開發(fā)和產(chǎn)品相比,運(yùn)維更像是一個(gè)后勤角色,這一行業(yè)也長期處于公眾視野的暗處。隨著云計(jì)算、大數(shù)據(jù)、人工智能等技術(shù)的興起,運(yùn)維行業(yè)也迎來了新的技術(shù)變革。2016年,Gartner提出智能運(yùn)維AIOps的概念,旨在使用大數(shù)據(jù)、機(jī)器學(xué)習(xí)等方法來提升運(yùn)維能力,其目的是進(jìn)一步降低自動(dòng)化運(yùn)維中人為干擾,最終實(shí)現(xiàn)運(yùn)維無人化、自動(dòng)化。Gartner預(yù)測,到2020年,AIOps的采用率將會(huì)達(dá)到50%。六年過去了,AIOps技術(shù)發(fā)展得如何?一種新的工作模式出現(xiàn),必然會(huì)對原來穩(wěn)定的工作模式進(jìn)行改變,改變通常會(huì)受到新挑戰(zhàn),所以新工作模式需要能解決當(dāng)前運(yùn)維工作中遇到的難題而出現(xiàn)。以金融行業(yè)的業(yè)務(wù)連續(xù)性管理為例,目標(biāo)是提高公司的風(fēng)險(xiǎn)防范能力、有效地減少非計(jì)劃的業(yè)務(wù)中斷、防范運(yùn)維操作風(fēng)險(xiǎn),對于首次出現(xiàn)的未知異常能夠利用工具量化分析并快速定位,確保在重大災(zāi)難性事件發(fā)生后能按計(jì)劃恢復(fù)業(yè)務(wù)連續(xù)性。在面對當(dāng)前復(fù)雜的技術(shù)架構(gòu)、不斷引入的創(chuàng)新技術(shù)之下,傳統(tǒng)運(yùn)維團(tuán)隊(duì)原來被動(dòng)救火式、問題驅(qū)動(dòng)式的經(jīng)驗(yàn)運(yùn)維,已經(jīng)很難實(shí)現(xiàn)業(yè)務(wù)連續(xù)性的保障目標(biāo)。金融企業(yè)運(yùn)行安全穩(wěn)定,需要運(yùn)維數(shù)據(jù)賦予數(shù)據(jù)洞察、輔助決策、跟蹤執(zhí)行的能力,提升復(fù)雜環(huán)境下的運(yùn)維管理能力。例如:實(shí)時(shí)獲得“發(fā)生了什么”?關(guān)聯(lián)分析“為什么會(huì)發(fā)生”?智能預(yù)測“將會(huì)發(fā)生什么”?決策判斷“采取什么措施”?自動(dòng)執(zhí)行“如何快速執(zhí)行”?實(shí)時(shí)感知“工作執(zhí)行的效果”?AIOps就是為了解決上述問題而生,其價(jià)值在于通過機(jī)器學(xué)習(xí)來進(jìn)行運(yùn)維數(shù)據(jù)的挖掘,幫助人甚至代替人進(jìn)行更有效和快速的決策,從而提升業(yè)務(wù)系統(tǒng)的SLA,減小故障處理的時(shí)間等,帶來業(yè)務(wù)的價(jià)值,并最終實(shí)現(xiàn)真正意義上的無人值守運(yùn)維。如Gartner定義中提出,AIOps應(yīng)用需要利用大數(shù)據(jù),現(xiàn)代機(jī)器學(xué)習(xí)技術(shù)和其他高級分析技術(shù),是一種相對較高門檻的工作模式。為了更好地落地AIOps,運(yùn)維組織需要深刻地理解AIOps的內(nèi)涵,重點(diǎn)實(shí)現(xiàn)思路分為以下幾個(gè)方面:數(shù)據(jù)為先,AIOps需要快速生產(chǎn)高質(zhì)量數(shù)據(jù)的能力。“快速”的思路可以以“中臺”思路進(jìn)行建設(shè),建立統(tǒng)一的數(shù)據(jù)采控、實(shí)時(shí)與批量的數(shù)據(jù)處理能力、與運(yùn)維相匹配的運(yùn)維算法、存儲方案、主數(shù)據(jù)、指標(biāo)模型等;“高質(zhì)量”則從將分散數(shù)據(jù)統(tǒng)一、在線后形成“活數(shù)據(jù)”,以及數(shù)據(jù)質(zhì)量上的治理。從技術(shù)實(shí)現(xiàn)看,具備實(shí)時(shí)“采、存、算、管、用”的數(shù)據(jù)流動(dòng)全生命周期管理的能力。其中,數(shù)據(jù)采集是按需在線采集數(shù)據(jù)的能力;數(shù)據(jù)存儲是根據(jù)數(shù)據(jù)類型、數(shù)據(jù)應(yīng)用特點(diǎn)對數(shù)據(jù)進(jìn)行歸檔、整理、傳輸、共享;數(shù)據(jù)計(jì)算包括數(shù)據(jù)標(biāo)注、清洗、建模、加工、標(biāo)準(zhǔn)化、質(zhì)量監(jiān)控,以及為了獲得數(shù)據(jù)洞察、決策、執(zhí)行而對數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì);數(shù)據(jù)管理重點(diǎn)圍繞數(shù)據(jù)治理,包括運(yùn)維數(shù)據(jù)標(biāo)準(zhǔn)、主數(shù)據(jù)、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全的管理;數(shù)據(jù)使用重點(diǎn)圍繞數(shù)據(jù)服務(wù)角度涉及的數(shù)據(jù)目錄、服務(wù)門戶,以及配套的數(shù)據(jù)服務(wù)化能力。算法大腦,適配、引入特定場景下運(yùn)維算法,構(gòu)建算法模型體系。機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)的大規(guī)模應(yīng)用,推動(dòng)了人工智能的快速發(fā)展。隨著國內(nèi)TO B市場的火爆,AIOps上人工智能研究及應(yīng)用正處于爆發(fā)期,引入AI技術(shù)的算法有三點(diǎn)優(yōu)勢:一是工作穩(wěn)定性高,人工智能可不知疲倦地進(jìn)行工作,在規(guī)律性問題的分析時(shí)不受環(huán)境影響。二是降低操作風(fēng)險(xiǎn),利用人工智能取代傳統(tǒng)人工經(jīng)驗(yàn)操作,可更好地避免操作風(fēng)險(xiǎn)和道德風(fēng)險(xiǎn)。三是有效提高決策效率,人工智能可以快速地對大數(shù)據(jù)進(jìn)行篩選和分析,幫助人們更高效率地決策。場景驅(qū)動(dòng),以痛點(diǎn)、價(jià)值期望切入點(diǎn),用智能賦能運(yùn)維場景,落地智能運(yùn)維能力。AIOps從詞來看,應(yīng)該包括“AI+Ops”,是用AI賦能運(yùn)維場景的模式。有了上面提到的數(shù)據(jù)底座與算法大腦,下一步是AIOps運(yùn)維模式的落地,主要將圍繞場景的落地:一種是利用算法賦能已有的運(yùn)維場景,另一種是算法實(shí)現(xiàn)原來無法實(shí)現(xiàn)的運(yùn)維場景。前者是一個(gè)快速見效的模式,后者是應(yīng)對變化而做出的變化。運(yùn)維知識描述了大量運(yùn)維領(lǐng)域的相關(guān)對象定義、技巧,以及排故/解決經(jīng)驗(yàn)的信息。通過構(gòu)建運(yùn)維知識圖譜,利用自然語義等算法技術(shù),從海量數(shù)據(jù)中自動(dòng)挖掘各類運(yùn)維主體,對其特性進(jìn)行畫像和結(jié)構(gòu)化描述,動(dòng)態(tài)記錄運(yùn)維主體之間的關(guān)聯(lián)關(guān)系,可以幫助IT人員實(shí)現(xiàn)故障鏈傳播分析、根因定位、智能的變更影響分析、故障預(yù)測等多種AIOps場景。值得注意的是,軟件的一些“算法邏輯”不代表真正的AIOps,判斷是否是真正AIOps的關(guān)鍵點(diǎn)在于:是否能自動(dòng)從數(shù)據(jù)學(xué)習(xí)中總結(jié)規(guī)律,并利用規(guī)律對當(dāng)前的環(huán)境給予決策建議。AIOps的概念非常美好,應(yīng)用空間也相當(dāng)廣闊。除了互聯(lián)網(wǎng),在金融、物聯(lián)網(wǎng)、醫(yī)療、通信、工業(yè)等領(lǐng)域,均表現(xiàn)出對智能運(yùn)維的強(qiáng)烈需求。數(shù)據(jù)顯示,2020年中國IT智能運(yùn)維市場規(guī)模為560.8億元,年復(fù)合增速為20.1%,預(yù)計(jì)未來以15.9%復(fù)合增速擴(kuò)張,2025年市場規(guī)模達(dá)1093.5億元,表現(xiàn)出較大的市場潛力。目前,我國政府部門也陸續(xù)出臺《推動(dòng)企業(yè)上云實(shí)施指南(2018-2020年)》《國家新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南》等一系列政策,推動(dòng)智能運(yùn)維領(lǐng)域的發(fā)展。但必須承認(rèn)的是,我國智能運(yùn)維還處在起步階段。 盡管國內(nèi)運(yùn)維行業(yè)在2016年前后迎來了一波融資熱,但目前運(yùn)維行業(yè)整體還比較落后。一方面,技術(shù)有限,在線系統(tǒng)本身具有規(guī)模性和復(fù)雜性,是需要長期投入的研究領(lǐng)域;另一方面,智能運(yùn)維需要高質(zhì)量的標(biāo)注數(shù)據(jù),但運(yùn)維數(shù)據(jù)積累明顯不足,至少還需積累3-5年。事實(shí)上,產(chǎn)品不落地、善于融資、估值虛高,是一些智能運(yùn)維公司給業(yè)內(nèi)人留下的印象。目前國內(nèi)大部分公司在技術(shù)層面的原創(chuàng)力都還不夠強(qiáng),很多都是利用國外的開源代碼,有的公司甚至將幾個(gè)開源產(chǎn)品拼湊在一起,內(nèi)部之間仍是相互獨(dú)立、割裂的,沒有彼此打通,以至于最后的方案也不怎么好用,需要大量的人力運(yùn)維支持。因此,盡管隨著技術(shù)的發(fā)展,運(yùn)維行業(yè)已初步進(jìn)入自動(dòng)化、智能化初級階段,但現(xiàn)階段運(yùn)維仍舊是一個(gè)“費(fèi)人”的行業(yè)。為了規(guī)范國內(nèi)智能運(yùn)維領(lǐng)域的發(fā)展,中國信息通信研究院發(fā)布了《智能化運(yùn)維AIOps能力成熟度模型》系列標(biāo)準(zhǔn)。在此內(nèi)容基礎(chǔ)上,由中國信通院牽頭的國內(nèi)外首個(gè)智能運(yùn)維(AIOps)國際標(biāo)準(zhǔn)在國際電信聯(lián)盟第十三研究組ITU-T SG13也已成功立項(xiàng)。在《智能化運(yùn)維AIOps能力成熟度模型》中,面向智能運(yùn)維整體能力建設(shè),規(guī)定了對IT系統(tǒng)或平臺進(jìn)行智能化運(yùn)維的參考框架及分級評估方法,提出了關(guān)于企業(yè)建設(shè)智能化運(yùn)維能力的實(shí)施路徑,能夠指導(dǎo)國內(nèi)互聯(lián)網(wǎng)和傳統(tǒng)行業(yè)在智能運(yùn)維方向的相關(guān)實(shí)踐落地。“建立一個(gè)可供數(shù)百萬人每天使用,但只需一名兼職人員管理和維護(hù)的系統(tǒng)?!边@是吉姆·格雷(Jim Gray)在1999年獲得圖靈獎(jiǎng)時(shí)對無故障服務(wù)器系統(tǒng)的暢想。如今,隨著AIOps的開發(fā),我們比以往任何時(shí)候都更接近這一愿景,并有望超越這一愿景。盡管AIOps仍處于起步階段,但智能化給運(yùn)維領(lǐng)域帶來效率上的質(zhì)變已肉眼可見。這個(gè)領(lǐng)域的持續(xù)創(chuàng)新將為更多企業(yè)帶來新的業(yè)務(wù)價(jià)值。
|