一、IT運(yùn)維的發(fā)展
IT運(yùn)維是IT運(yùn)營(yíng)維護(hù)人員根據(jù)業(yè)務(wù)需求來規(guī)劃信息、網(wǎng)絡(luò)、服務(wù),通過網(wǎng)絡(luò)監(jiān)控、事件預(yù)警、業(yè)務(wù)調(diào)度、排障升級(jí)等手段,使IT系統(tǒng)處于長(zhǎng)期穩(wěn)定可用的狀態(tài)。
早期的IT運(yùn)維工作大部分是由運(yùn)維人員手工完成,這種運(yùn)維模式不僅低效,也消耗了大量的人力資源。利用工具來實(shí)現(xiàn)大規(guī)模和批量化的自動(dòng)化IT運(yùn)維,能極大地減少了人力成本,降低了操作風(fēng)險(xiǎn),提高了運(yùn)維效率。
但是自動(dòng)化運(yùn)維的本質(zhì)依然是人與自動(dòng)化工具相結(jié)合的運(yùn)維模式,受限于人類自身的生理極限以及認(rèn)識(shí)的局限,無法持續(xù)地面向大規(guī)模、高復(fù)雜性的系統(tǒng)提供高質(zhì)量的運(yùn)維服務(wù)。
智能運(yùn)維(AIOps,Artificial Intelligence for IT Operations)是指通過機(jī)器學(xué)習(xí)等人工智能算法,自動(dòng)地從海量運(yùn)維數(shù)據(jù)中學(xué)習(xí)并總結(jié)規(guī)則,并作出決策的運(yùn)維方式。
智能運(yùn)維的概念最早由Gartner提出,它是將人工智能科技融入運(yùn)維系統(tǒng)中,以大數(shù)據(jù)和機(jī)器學(xué)習(xí)為基礎(chǔ),從多種數(shù)據(jù)源中采集海量數(shù)據(jù)(包括日志、業(yè)務(wù)數(shù)據(jù)、系統(tǒng)數(shù)據(jù)等)進(jìn)行實(shí)時(shí)或離線分析,通過主動(dòng)性、人性化和動(dòng)態(tài)可視化,增強(qiáng)傳統(tǒng)運(yùn)維的能力。
智能運(yùn)維能快速分析處理海量數(shù)據(jù),并得出有效的運(yùn)維決策,執(zhí)行自動(dòng)化腳本以實(shí)現(xiàn)對(duì)系統(tǒng)的整體運(yùn)維,能有效運(yùn)維大規(guī)模系統(tǒng)。而在轉(zhuǎn)型發(fā)展中,傳統(tǒng)技術(shù)系統(tǒng)的運(yùn)維模式面臨以下三大挑戰(zhàn):
一是安全運(yùn)行的挑戰(zhàn)。
業(yè)務(wù)對(duì)技術(shù)系統(tǒng)的安全穩(wěn)定運(yùn)行要求高,而業(yè)務(wù)功能一般涉及多個(gè)系統(tǒng)應(yīng)用,所采用的事后處置為主的運(yùn)維模式,存在異常定位困難、處理效率低等缺陷,這種被動(dòng)異常響應(yīng)模式已經(jīng)不能滿足異常快速定位和處理的需求。
二是人力緊缺的挑戰(zhàn)。
目前的技術(shù)系統(tǒng)運(yùn)維由于工作量大、工作內(nèi)容重復(fù)且枯燥,運(yùn)維崗位特別是值班崗位的吸引力逐漸降低。運(yùn)維需求與人力資源緊缺的矛盾,已經(jīng)成為技術(shù)系統(tǒng)發(fā)展中無法避免的矛盾。
三是遠(yuǎn)程運(yùn)維的挑戰(zhàn)。
從單數(shù)據(jù)中心向多數(shù)據(jù)中心發(fā)展過程中,傳統(tǒng)的現(xiàn)場(chǎng)運(yùn)維方式也因數(shù)據(jù)中心地點(diǎn)偏僻、現(xiàn)場(chǎng)巡檢工作繁瑣重復(fù)等困難而導(dǎo)致運(yùn)維成本和壓力增大,如何實(shí)現(xiàn)遠(yuǎn)程運(yùn)維來解決數(shù)據(jù)中心發(fā)展的問題。
技術(shù)發(fā)展中產(chǎn)生的問題必須依靠技術(shù)來解決,只有在運(yùn)維領(lǐng)域引入新技術(shù)、新思路、新體系,才能更好地提升運(yùn)維水平,更好地保障系統(tǒng)安全穩(wěn)定高效的運(yùn)行。
當(dāng)前主流運(yùn)維技術(shù)已從自動(dòng)化運(yùn)維向智能運(yùn)維發(fā)展,利用人工智能來輔助甚至部分替代人工決策,可以進(jìn)一步提升運(yùn)維質(zhì)量和效率。
因此,很多公司開展了智能運(yùn)維的探索,研究如何在運(yùn)維中引入人工智能,以實(shí)現(xiàn)事前智能預(yù)警、事后快速定位、夜間無人值守、遠(yuǎn)程集中管理等一系列的智能運(yùn)維目標(biāo),以應(yīng)對(duì)新環(huán)境下的三大運(yùn)維挑戰(zhàn),進(jìn)一步解放與發(fā)展生產(chǎn)力。
表1給出了手工運(yùn)維、自動(dòng)化運(yùn)維、智能運(yùn)維在運(yùn)維效率、系統(tǒng)可用性、可靠性、學(xué)習(xí)成本、建設(shè)成本、應(yīng)用范圍作了全面的比較。
二、智能運(yùn)維研究與應(yīng)用現(xiàn)狀
當(dāng)前智能運(yùn)維研究與應(yīng)用在國(guó)內(nèi)外各行業(yè)中都屬于起步階段,Gartner的報(bào)告中也做出預(yù)測(cè):2020年,智能運(yùn)維在一半以上的企業(yè)中落地并形成生產(chǎn)力,如下圖所示:
盡管如此,智能運(yùn)維已經(jīng)成為科研機(jī)構(gòu)研究的熱點(diǎn),并在高利潤(rùn)、低成本的驅(qū)動(dòng)下,互聯(lián)網(wǎng)公司、金融機(jī)構(gòu)、IT技術(shù)公司走在了智能運(yùn)維工程應(yīng)用方面的前列。
(1)科研機(jī)構(gòu)
科研機(jī)構(gòu)一向是新技術(shù)革命的領(lǐng)頭羊。在智能運(yùn)維研究領(lǐng)域,國(guó)內(nèi)外科研機(jī)構(gòu)不僅有先進(jìn)的科研成果,也與工業(yè)界展開密切合作,從算法層面上支撐了智能運(yùn)維的落地與發(fā)展。
卡內(nèi)基梅隆大學(xué)與Netflix公司合作,在網(wǎng)絡(luò)視頻運(yùn)維領(lǐng)域提出并應(yīng)用多種人工智能方法:利用不同數(shù)據(jù)分析及統(tǒng)計(jì)分析方法,靈活使用可視化、相關(guān)分析、信息熵增益等工具,將雜亂無章數(shù)據(jù)轉(zhuǎn)化為直觀清晰信息,從而分析海量數(shù)據(jù)背后視頻體驗(yàn)不佳的規(guī)律和瓶頸。
雙方共同設(shè)計(jì)了視頻傳輸智能優(yōu)化方案,可根據(jù)客戶的網(wǎng)絡(luò)狀態(tài),動(dòng)態(tài)地優(yōu)化視頻傳輸;通過決策樹模型建立用戶參與度的預(yù)測(cè)模型,指導(dǎo)關(guān)鍵性能指標(biāo)的優(yōu)化策略,改善用戶的體驗(yàn)質(zhì)量。
南京大學(xué)周志華教授團(tuán)隊(duì)專注于機(jī)器學(xué)習(xí)算法的研究,所提出的isolation forest孤立森林算法可用于挖掘異常數(shù)據(jù),檢測(cè)和分析異常。該方法已經(jīng)在360公司系統(tǒng)運(yùn)維中用以實(shí)時(shí)檢測(cè)異常,騰訊公司也將其用于檢測(cè)微信中的異常點(diǎn)擊。
清華大學(xué)NetMan智能運(yùn)維實(shí)驗(yàn)室則專注于異常檢測(cè)、分析與預(yù)測(cè),提出了多種算法和工具。該團(tuán)隊(duì)目前已經(jīng)和交通銀行、阿里巴巴、IBM等多家機(jī)構(gòu)開展合作,實(shí)現(xiàn)了產(chǎn)學(xué)研相結(jié)合。
(2)互聯(lián)網(wǎng)行業(yè)
阿里巴巴研發(fā)了智能故障管理平臺(tái),以業(yè)務(wù)為導(dǎo)向,實(shí)現(xiàn)了基于機(jī)器學(xué)習(xí)的業(yè)務(wù)異常檢測(cè),準(zhǔn)確及時(shí)發(fā)現(xiàn)故障。通過時(shí)間序列分析和機(jī)器學(xué)習(xí),對(duì)未來一段時(shí)間的業(yè)務(wù)指標(biāo)趨勢(shì)進(jìn)行預(yù)測(cè)。
針對(duì)業(yè)務(wù)異常時(shí)間,自動(dòng)調(diào)用各類型AP接口實(shí)現(xiàn)一鍵切換,快速恢復(fù)業(yè)務(wù)異常。并針對(duì)業(yè)務(wù)異常事件自動(dòng)拆解相關(guān)維度,逐層剝離定位故障原因。
目前該平臺(tái)已經(jīng)在阿里云上成功實(shí)踐,故障發(fā)現(xiàn)準(zhǔn)確率、故障發(fā)現(xiàn)召回率分別提升到80%和90%,每周節(jié)省因?yàn)檎`報(bào)而花費(fèi)的操作時(shí)間約為29小時(shí)。
百度實(shí)現(xiàn)了基于智能流量調(diào)度的單機(jī)房故障自愈能力,將止損過程劃分為統(tǒng)一的感知、決策、執(zhí)行三個(gè)階段,通過策略框架支持智能化異常檢測(cè)、策略編排、流量調(diào)度,實(shí)現(xiàn)了單機(jī)房故障自愈能力。
京東金融實(shí)現(xiàn)了基于網(wǎng)絡(luò)拓?fù)涞母锤婢治觯Y(jié)合調(diào)用鏈,通過時(shí)間相關(guān)性、權(quán)重、關(guān)聯(lián)規(guī)則算法、神經(jīng)網(wǎng)絡(luò)算法等,將告警分類篩選,快速找到告警根源,從而縮短故障排查及恢復(fù)時(shí)間。
京東金融還在其云計(jì)算數(shù)據(jù)中心應(yīng)用了智能巡檢機(jī)器人,提升了機(jī)房及數(shù)據(jù)中心的巡檢效率和智能化管理水平,避免人工的錯(cuò)檢和漏檢,對(duì)巡檢數(shù)據(jù)進(jìn)行數(shù)據(jù)化管理和高效利用。
騰訊在其織云監(jiān)控平臺(tái)中建設(shè)了基于機(jī)器學(xué)習(xí)的時(shí)間序列異常檢測(cè)方案,在百萬條基于時(shí)間序列的日志信息中,以少量的時(shí)間實(shí)現(xiàn)了異常檢測(cè)。
(3)金融行業(yè)
交通銀行通過數(shù)據(jù)中心運(yùn)維大數(shù)據(jù)平臺(tái)的建設(shè),將各類日志、告警等運(yùn)維數(shù)據(jù)統(tǒng)一集中存儲(chǔ)。通過關(guān)聯(lián)分析、建模預(yù)測(cè)等方式發(fā)現(xiàn)日志、告警信息中潛在聯(lián)系,并建設(shè)監(jiān)控歷史數(shù)據(jù)分析、監(jiān)控告警智能分析以及日志智能檢索分析等大數(shù)據(jù)運(yùn)維應(yīng)用場(chǎng)景,實(shí)現(xiàn)了事前智能預(yù)警、事后快速定位故障。
中國(guó)銀行初步形成了“運(yùn)維大數(shù)據(jù)倉庫”、“運(yùn)維數(shù)據(jù)分析平臺(tái)”的計(jì)算框架,對(duì)系統(tǒng)日志、應(yīng)用日志、監(jiān)控?cái)?shù)據(jù)和網(wǎng)絡(luò)鏡像包等全量數(shù)據(jù)進(jìn)行集中存放和處理,并在異常檢測(cè)、故障快速定位、系統(tǒng)容量預(yù)估和動(dòng)態(tài)調(diào)配等多個(gè)場(chǎng)景中應(yīng)用。
太平洋保險(xiǎn)在智能運(yùn)維方面實(shí)現(xiàn)了告警收斂,將多個(gè)告警做匯聚合并和主源分析,還開展了云腦項(xiàng)目以實(shí)現(xiàn)業(yè)務(wù)趨勢(shì)預(yù)測(cè)和容量管理功能,還開發(fā)點(diǎn)點(diǎn)2.0 APP,實(shí)現(xiàn)風(fēng)險(xiǎn)監(jiān)測(cè)和智能交互等功能。
陽光保險(xiǎn)利用大數(shù)據(jù)和機(jī)器學(xué)習(xí),實(shí)現(xiàn)了智能巡檢、報(bào)警聚合、故障自愈及故障避免、自動(dòng)發(fā)版與止損等多項(xiàng)功能。招商銀行在性能容量評(píng)估、故障定位與診斷方面采用智能運(yùn)維的方案,以應(yīng)對(duì)業(yè)務(wù)高峰的需求。
上海銀行張江數(shù)據(jù)中心啟用了智能巡檢機(jī)器人,對(duì)設(shè)備運(yùn)行狀態(tài)、機(jī)房環(huán)境、機(jī)柜微環(huán)境實(shí)時(shí)監(jiān)測(cè),保證數(shù)據(jù)中心狀態(tài)實(shí)時(shí)可視、可控及數(shù)據(jù)的準(zhǔn)確性。
(4) 技術(shù)廠商
Splunk公司擅長(zhǎng)大數(shù)據(jù)的搜索與可視化,該公司以splunk平臺(tái)為基礎(chǔ)研發(fā)了智能運(yùn)維管理平臺(tái),它將收集到的機(jī)器數(shù)據(jù)轉(zhuǎn)化為有運(yùn)維價(jià)值的見解,讓用戶能實(shí)時(shí)了解IT系統(tǒng)與技術(shù)構(gòu)架現(xiàn)狀,以便做出決策。
IBM公司認(rèn)為智能運(yùn)維的目標(biāo)是對(duì)異常做出預(yù)警,在問題暴露前優(yōu)化校正服務(wù),以避免對(duì)業(yè)務(wù)造成影響。
為此,IBM提出了實(shí)時(shí)大數(shù)據(jù)分析驅(qū)動(dòng)的新一代智能運(yùn)維中心解決方案,對(duì)事件日志進(jìn)行上下文歷史挖掘分析、周期性規(guī)律分析、成對(duì)成組出現(xiàn)分析、日志相關(guān)與因果分析。
目前該方案目前已在交通銀行得到實(shí)施與應(yīng)用。不僅如此,IBM還發(fā)布了《金融行業(yè)智能運(yùn)維AIOps實(shí)施建議白皮書》。
華為推出了基于大數(shù)據(jù)平臺(tái)的FabricInsight數(shù)據(jù)中心網(wǎng)絡(luò)智能分析平臺(tái)。它基于 telemetry,采集全網(wǎng)真實(shí)流評(píng)估網(wǎng)絡(luò)質(zhì)量,進(jìn)行網(wǎng)絡(luò)異常流識(shí)別和分析,實(shí)現(xiàn)風(fēng)險(xiǎn)主動(dòng)預(yù)測(cè)。
FabricInsight將應(yīng)用和網(wǎng)絡(luò)路徑關(guān)聯(lián),能夠?qū)Χ丝诩?jí)問題進(jìn)行快速定位,還支持百億數(shù)據(jù)秒級(jí)檢索,并實(shí)現(xiàn)時(shí)延、路徑等多維度歷史數(shù)據(jù)可視。
蒙帕智能運(yùn)維平臺(tái)包括蒙帕MOSS智能巡檢機(jī)器人、運(yùn)維大數(shù)據(jù)、監(jiān)控軟件、運(yùn)維管理、3D可視化機(jī)房、一體化大屏等六大模塊,目前已經(jīng)成功應(yīng)用于中國(guó)日?qǐng)?bào)社、上海工程局等客戶的數(shù)據(jù)中心中。
三、智能運(yùn)維的實(shí)施路徑
智能運(yùn)維的建設(shè)是從無到有的過程,是從局部單點(diǎn)應(yīng)用的探索到單點(diǎn)能力完善,再到形成解決某個(gè)局部問題的一個(gè)過程,最終將各個(gè)智能運(yùn)維場(chǎng)景相結(jié)合,形成一體化智能運(yùn)維能力。
因此智能運(yùn)維的實(shí)施路徑可分為以下四個(gè)層面:
(1)運(yùn)維大數(shù)據(jù)平臺(tái)建設(shè)
數(shù)據(jù)是智能運(yùn)維落地的基礎(chǔ),首先需要建立運(yùn)維大數(shù)據(jù)平臺(tái),對(duì)運(yùn)維數(shù)據(jù)進(jìn)行采集、分析、計(jì)算、存儲(chǔ),并定義標(biāo)準(zhǔn)化的指標(biāo)體系,對(duì)運(yùn)維數(shù)據(jù)進(jìn)行萃取,積累大量的可用的運(yùn)維數(shù)據(jù)。
以性能指標(biāo)體系為例,可對(duì)操作系統(tǒng)、數(shù)據(jù)庫、中間件等應(yīng)用建立可供分析的性能指標(biāo)體系,并在系統(tǒng)運(yùn)行中獲取性能數(shù)據(jù),以此來刻畫各應(yīng)用的正常狀態(tài)、異常狀態(tài)的畫像,為后續(xù)的檢測(cè)、預(yù)測(cè)、分析等提供基礎(chǔ)的運(yùn)維知識(shí)圖譜數(shù)據(jù)。
(2)單點(diǎn)智能化實(shí)踐
其次,應(yīng)從實(shí)際出發(fā),立足當(dāng)前運(yùn)維痛點(diǎn),從單點(diǎn)運(yùn)維場(chǎng)景切入,如建立時(shí)序數(shù)據(jù)智能異常發(fā)現(xiàn)、流量智能異常告警、數(shù)據(jù)庫智能監(jiān)控、智能網(wǎng)絡(luò)日志分析等能力,由點(diǎn)到面進(jìn)行智能化運(yùn)維能力的建設(shè),從而為后期進(jìn)行局部智能化場(chǎng)景的實(shí)現(xiàn)打下基礎(chǔ)。
以數(shù)據(jù)庫智能監(jiān)控能力為例,運(yùn)維人員可實(shí)時(shí)獲取數(shù)據(jù)運(yùn)行狀態(tài)指標(biāo),當(dāng)數(shù)據(jù)庫出現(xiàn)異常時(shí),運(yùn)維人員可通過歷史數(shù)據(jù)回溯、數(shù)據(jù)比對(duì)等方式進(jìn)行故障跟蹤、異常指標(biāo)分析,從而形成標(biāo)準(zhǔn)化故障排查、分析能力和經(jīng)驗(yàn),為后期的數(shù)據(jù)庫智能故障預(yù)警、異常根因分析等局部場(chǎng)景提供基礎(chǔ)支持。
(3)局部場(chǎng)景智能化
局部場(chǎng)景智能化是指對(duì)運(yùn)維場(chǎng)景中硬件、系統(tǒng)、網(wǎng)絡(luò)、數(shù)據(jù)庫、中間件等分別實(shí)現(xiàn)智能監(jiān)控、異常預(yù)警、故障發(fā)現(xiàn)、故障分析、根因分析、故障自愈等閉環(huán)場(chǎng)景。
以網(wǎng)絡(luò)異常為例,當(dāng)智能運(yùn)維系統(tǒng)檢測(cè)到網(wǎng)絡(luò)異常指標(biāo)時(shí),將出發(fā)告警時(shí)間,經(jīng)運(yùn)維人員確認(rèn)故障后,智能運(yùn)維系統(tǒng)將通過機(jī)器學(xué)習(xí)算法定位故障,然后調(diào)用自動(dòng)化運(yùn)維工具執(zhí)行相應(yīng)的修復(fù)操作,實(shí)現(xiàn)該場(chǎng)景下故障自愈。
局部場(chǎng)景智能化的實(shí)現(xiàn),將使得故障發(fā)現(xiàn)、處理、排查效率得到極大的提升,有效保障業(yè)務(wù)穩(wěn)定運(yùn)行。同時(shí),該能力的實(shí)現(xiàn)使得智能化運(yùn)維具備場(chǎng)景化、標(biāo)準(zhǔn)化、自動(dòng)化等能力。
(4)一體化智能運(yùn)維
一體化智能運(yùn)維是智能運(yùn)維系統(tǒng)發(fā)展的終極目標(biāo)。該階段不僅實(shí)現(xiàn)各運(yùn)維場(chǎng)景智能化閉環(huán),且智能運(yùn)維能力與運(yùn)維管理流程、運(yùn)維組織架構(gòu)、運(yùn)維自動(dòng)化是深入融合。
運(yùn)維人員不再以發(fā)現(xiàn)故障、解決故障作為目標(biāo)導(dǎo)向,轉(zhuǎn)而專注業(yè)務(wù)運(yùn)行狀態(tài),探索運(yùn)維需求,定義并實(shí)現(xiàn)運(yùn)維場(chǎng)景,豐富智能運(yùn)維的廣度與深度。