云計(jì)算時(shí)代,IT系統(tǒng)建設(shè)成為企業(yè)發(fā)展至關(guān)重要的一環(huán),而保障業(yè)務(wù)健康運(yùn)行的運(yùn)維系統(tǒng)同樣至關(guān)重要。在當(dāng)前企業(yè)IT系統(tǒng)向云架構(gòu)轉(zhuǎn)型的重要時(shí)刻,運(yùn)維系統(tǒng)再次面臨挑戰(zhàn)。
為了支持業(yè)務(wù)系統(tǒng)快速上線、靈活伸縮以及更高的SLA要求,加之有限的IT運(yùn)維成本,運(yùn)維人員將面臨比以往更大的運(yùn)維壓力。在運(yùn)維擁有海量設(shè)備且高度復(fù)雜的云數(shù)據(jù)中心環(huán)境時(shí),如何提供高質(zhì)量的IT服務(wù),提升效率并降低成本,是運(yùn)維團(tuán)隊(duì)當(dāng)前面臨的巨大挑戰(zhàn)。
保障高運(yùn)維質(zhì)量:云數(shù)據(jù)中心的設(shè)備規(guī)模從幾十/幾百向幾萬/幾百萬數(shù)量級演進(jìn)時(shí),海量硬件設(shè)備的使用對硬件故障的快速定位和隔離將帶來巨大挑戰(zhàn);同時(shí),采用虛擬化和分布式彈性技術(shù)也加劇了云數(shù)據(jù)中心的復(fù)雜度。這些都會導(dǎo)致運(yùn)維難度增加,小概率故障成為常態(tài)且影響加大,用戶級的99.95%或以上的服務(wù)質(zhì)量承諾(SLA)很難保障。
提高運(yùn)維效率:虛擬化技術(shù)和眾多開源技術(shù)的引入使得運(yùn)維變得越來越復(fù)雜,傳統(tǒng)人工運(yùn)維模式處理速度慢、出錯(cuò)概率高。此外,傳統(tǒng)人均50~100臺設(shè)備的維護(hù)效率,在大規(guī)模云化環(huán)境下,需要投入大量人力。
保持低運(yùn)營成本:傳統(tǒng)IT的資源使用率通常小于20%,在云化后資源使用率有所提升,但是個(gè)性化、按需彈性需求導(dǎo)致資源碎片化、負(fù)載不平衡以及擴(kuò)容規(guī)劃不精準(zhǔn),可能會造成整體資源利用率并沒有達(dá)到規(guī)劃目標(biāo),運(yùn)維成本居高不下。
在此形勢下,云計(jì)算通過自動的彈性伸縮策略來實(shí)現(xiàn)資源共享與用戶體驗(yàn)及業(yè)務(wù)可用性之間的平衡,但同時(shí)也帶來了運(yùn)維的新需求和新挑戰(zhàn),即運(yùn)維人員往往并不知道業(yè)務(wù)系統(tǒng)具體運(yùn)行在哪個(gè)硬件上,故障定位變得困難,解決這種不可知性要求運(yùn)維系統(tǒng)要做到“更加全面的系統(tǒng)監(jiān)控”,從而實(shí)現(xiàn)“可知性”。
與此同時(shí),企業(yè)IT向云架構(gòu)遷移需要一定的時(shí)間跨度,而兩種架構(gòu)導(dǎo)致運(yùn)維工具差異大,對運(yùn)維人員帶來了更大的挑戰(zhàn)。如何實(shí)現(xiàn)兩種IT架構(gòu)統(tǒng)一、集中的維護(hù)管理,是運(yùn)維系統(tǒng)面臨的新課題。
運(yùn)維的工作不再是傳統(tǒng)的運(yùn)維管理,而是構(gòu)建自動化運(yùn)維模型和運(yùn)維工具。實(shí)現(xiàn)IT系統(tǒng)全自動化運(yùn)行的核心在于智能,才能夠基于系統(tǒng)的狀態(tài)、用戶規(guī)模、業(yè)務(wù)體驗(yàn)質(zhì)量和策略規(guī)則等,實(shí)現(xiàn)系統(tǒng)的彈性伸縮、故障隔離和故障修復(fù)等等。
系統(tǒng)的智能運(yùn)維包括3個(gè)方面的核心能力:全生命周期自動化管理;智能化故障預(yù)防、發(fā)現(xiàn)與自愈;以及智能化容量運(yùn)營。
全生命周期自動化管理
云數(shù)據(jù)中心的資源規(guī)模和業(yè)務(wù)規(guī)模都遠(yuǎn)遠(yuǎn)超過傳統(tǒng)數(shù)據(jù)中心。傳統(tǒng)的手工方式實(shí)現(xiàn)云資源/云服務(wù)的上線、監(jiān)控、升級、變更、擴(kuò)容、限流、降級與下線的生命周期管理時(shí),效率低下、人員誤操作風(fēng)險(xiǎn)高,自動化手段勢在必行。通過變?nèi)斯ぬ幚頌樽詣踊幚?,提升運(yùn)維的人均維護(hù)效率,滿足業(yè)務(wù)的敏捷要求,逐步向無人值守的自動化運(yùn)維演進(jìn)。
智能化的故障預(yù)防、發(fā)現(xiàn)與自愈
傳統(tǒng)模式下,運(yùn)維人員的工作模式是被動等待問題發(fā)生,然后再進(jìn)行故障處理。根據(jù)有關(guān)數(shù)據(jù)統(tǒng)計(jì),運(yùn)維人員平均每天計(jì)劃內(nèi)的工作只占50%左右,剩下的時(shí)間都是在到處救火。隨著云數(shù)據(jù)中心規(guī)??焖僭鲩L,運(yùn)維人員需要處理的事件量越來越大,人工救火將力不從心。這就需要一個(gè)智能的運(yùn)維平臺,利用大數(shù)據(jù)關(guān)聯(lián)分析與機(jī)器學(xué)習(xí)技術(shù)為運(yùn)維系統(tǒng)賦予人工智能,提供從故障預(yù)防到故障定位、再到故障閉環(huán)的智能保障能力。
智能化容量運(yùn)營提升資源利用率
傳統(tǒng)數(shù)據(jù)中心中,各業(yè)務(wù)部門獨(dú)立部署的業(yè)務(wù)系統(tǒng)無法共享,服務(wù)器的利用率小于20%。數(shù)據(jù)中心云化后,云資源能夠?qū)崿F(xiàn)資源共享和動態(tài)調(diào)配,但同時(shí)也帶來了碎片化、負(fù)載不均衡和SLA保障困難等挑戰(zhàn)。
智能化的容量管理結(jié)合了大數(shù)據(jù)分析預(yù)測技術(shù),將云數(shù)據(jù)中心內(nèi)物理資源(如裸金屬服務(wù)器、存儲和網(wǎng)絡(luò)等資源)和云資源(如虛擬機(jī)和塊存儲等)的實(shí)時(shí)容量視圖、容量快照、負(fù)載現(xiàn)狀和趨勢,以及容量碎片呈現(xiàn)出來。針對資源負(fù)載不均的問題,傳統(tǒng)運(yùn)維平臺因無法進(jìn)行遷移/彈性伸縮而導(dǎo)致無法調(diào)整。而在云數(shù)據(jù)中心中,容量管理會向運(yùn)維管理員提供低負(fù)載資源的分布信息,并提供縮減資源規(guī)格的建議;資源碎片化一般會導(dǎo)致20~30%“資源不可用”的情況,容量碎片管理向運(yùn)維管理員提供各種資源規(guī)格的物理分布視圖,并提供資源調(diào)整建議,提升現(xiàn)有資源的利用率。
云資源利用率達(dá)到一定閾值時(shí),規(guī)劃人員就需要考慮未來擴(kuò)容問題。傳統(tǒng)的容量預(yù)測主要依靠人的有限經(jīng)驗(yàn)與數(shù)據(jù)來進(jìn)行不可預(yù)知的擴(kuò)容,往往會造成資源閑置率超過20~30%。而智能化的容量管理將資源的容量數(shù)據(jù)、應(yīng)用行為分析、實(shí)際性能數(shù)據(jù)以及財(cái)務(wù)信息等相結(jié)合,對業(yè)務(wù)部門的關(guān)鍵應(yīng)用對未來IT基礎(chǔ)架構(gòu)的各種資源容量的訴求進(jìn)行高度準(zhǔn)確和可靠的智能預(yù)測,向規(guī)劃人員提供未來資源容量的趨勢分析,供規(guī)劃人員制定有效的采購和擴(kuò)容計(jì)劃,滿足用戶未來資源的高效利用。
智能化的容量管理能夠?qū)崿F(xiàn)現(xiàn)狀可視、問題可察、風(fēng)險(xiǎn)可辨、未來可測和調(diào)整可控,使云數(shù)據(jù)中心內(nèi)資源的利用率提升到70%以上的水平。