中國銀行業(yè)正進(jìn)入以數(shù)字化為導(dǎo)向發(fā)展的關(guān)鍵時(shí)期。相比于其他行業(yè),中國銀行業(yè)的運(yùn)維建設(shè)有著 IT 系統(tǒng)規(guī)模龐大、業(yè)務(wù)系統(tǒng)跨代且復(fù)雜的特殊性。金融監(jiān)管機(jī)構(gòu)對中國銀行業(yè)的穩(wěn)定性、安全性也有著嚴(yán)格的政策要求,但很多銀行由于頂層數(shù)據(jù)指標(biāo)規(guī)范和指標(biāo)體系建設(shè)不完善,導(dǎo)致 IT 技術(shù)指標(biāo)與業(yè)務(wù)運(yùn)營指標(biāo)數(shù)據(jù)質(zhì)量較差、關(guān)聯(lián)性較弱、場景覆蓋分散等問題。
中國銀行業(yè)數(shù)據(jù)指標(biāo)規(guī)范應(yīng)基于銀行核心業(yè)務(wù)和 IT 運(yùn)維管理的頂層規(guī)劃,將業(yè)務(wù)指標(biāo)與 IT 運(yùn)維進(jìn)行層次化建模,打造數(shù)據(jù)多源整合、指標(biāo)拓?fù)潢P(guān)聯(lián)的指標(biāo)管理體系,以此作為業(yè)務(wù)運(yùn)維監(jiān)控與管理的落地抓手,從而幫助 IT 部門改善運(yùn)維方式、提升運(yùn)維效率、保障業(yè)務(wù)穩(wěn)定性。
一、背景
銀行 IT 系統(tǒng)在云化、容器化、中心化、微服務(wù)等架構(gòu)迭代演化進(jìn)程中,系統(tǒng)架構(gòu)和業(yè)務(wù)調(diào)用關(guān)系復(fù)雜,運(yùn)維管理難度日益凸顯。銀行業(yè)務(wù)系統(tǒng)多采取煙囪式建設(shè)方法,數(shù)據(jù)互通困難,運(yùn)維團(tuán)隊(duì)無法做到及時(shí)響應(yīng)、及時(shí)發(fā)現(xiàn)并解決問題。目前,銀行業(yè)整體上已具備結(jié)合業(yè)務(wù)場景收集比較完整的 IT 指標(biāo)數(shù)據(jù)的能力,亟待一套指標(biāo)數(shù)據(jù)分析體系為 IT 管理與業(yè)務(wù)分析提供可量化、可視化、集約化的決策支撐。
然而,中國銀行業(yè)在實(shí)踐指標(biāo)管理體系的過程中會遇到以下幾方面的挑戰(zhàn):
●統(tǒng)籌全局運(yùn)維數(shù)據(jù)源的挑戰(zhàn)
中國銀行業(yè)正處于傳統(tǒng)向互聯(lián)網(wǎng)轉(zhuǎn)型期,云計(jì)算、大數(shù)據(jù)等新興技術(shù)也在逐步開展,而且銀行業(yè)需要海量的 IT 計(jì)算力和實(shí)時(shí)的響應(yīng)速度才可以滿足持續(xù)推出創(chuàng)新業(yè)務(wù)的訴求。簡言之,銀行業(yè)運(yùn)維數(shù)據(jù)源的數(shù)據(jù)量級在增加,而業(yè)務(wù)部門對實(shí)時(shí)處理響應(yīng)時(shí)間的期望值在減短。
此外,對于單個業(yè)務(wù)部門的指標(biāo)數(shù)據(jù),可以依賴個人對業(yè)務(wù)場景的經(jīng)驗(yàn)快速作出判斷并應(yīng)用于 IT 運(yùn)維管理工作。但銀行系統(tǒng)時(shí)時(shí)刻刻都會產(chǎn)生海量的指標(biāo)數(shù)據(jù),IT 管理人員無法判斷指標(biāo)數(shù)據(jù)對于業(yè)務(wù)的重要性、優(yōu)先級,更無從下手梳理指標(biāo)數(shù)據(jù)與業(yè)務(wù)的關(guān)聯(lián)性,從而無法聚焦某個業(yè)務(wù)場景內(nèi)的指標(biāo)數(shù)據(jù),導(dǎo)致指標(biāo)數(shù)據(jù)無法發(fā)揮出其潛在價(jià)值。
● 持續(xù)創(chuàng)新智能算法庫的挑戰(zhàn)
中國銀行業(yè)數(shù)字化轉(zhuǎn)型正在挑戰(zhàn) IT 的組織和管理方式,技術(shù)正在越來越多地集成于業(yè)務(wù),IT 不再局限于支持技術(shù),更是創(chuàng)新的推動力。銀行業(yè)由于自身的特性,對于加速創(chuàng)新業(yè)務(wù)的訴求迫在眉睫,而針對業(yè)務(wù)場景創(chuàng)新的智能算法模型正是解決此類訴求的不二法寶。
●跟跑智能運(yùn)維新理論的挑戰(zhàn)
智能運(yùn)維雖然已經(jīng)發(fā)展多年,但仍處于探索階段。指標(biāo)管理體系實(shí)踐過程中需要吸收智能運(yùn)維領(lǐng)域中像 ITIL 4 和 IT4IT 等標(biāo)準(zhǔn)的新理論體系,才能讓指標(biāo)管理體系發(fā)揮出對業(yè)務(wù)智能運(yùn)維的巨大推動作用。
二、云智慧銀行指標(biāo)管理體系落地實(shí)戰(zhàn)
一套完善的指標(biāo)管理體系應(yīng)基于企業(yè)業(yè)務(wù)和 IT 運(yùn)維管理的頂層規(guī)劃,將各個業(yè)務(wù)系統(tǒng)的孤立數(shù)據(jù)進(jìn)行分類、分層管理,從而通過更系統(tǒng)、更有層次的方式來展示業(yè)務(wù)場景的指標(biāo)數(shù)據(jù),使之成為以數(shù)據(jù)為驅(qū)動、面向業(yè)務(wù)運(yùn)維監(jiān)控與管理的落地抓手,讓 IT 管理員能夠?qū)⒎彪s的 IT 管理工作升維從簡,在改善 IT 管理方式的同時(shí)提升企業(yè)整體的 IT 運(yùn)營效率。
(一)落地實(shí)施方案
某銀行指標(biāo)管理體系的實(shí)施落地項(xiàng)目基于頂層指標(biāo)管理驅(qū)動,從業(yè)務(wù)視角切入,以業(yè)務(wù)場景為主題、以業(yè)務(wù)連續(xù)性為宗旨,通過直面業(yè)務(wù)場景、正向梳理 IT 調(diào)用鏈、逆向接入數(shù)據(jù)源等實(shí)施步驟,最終構(gòu)建了一套具備概覽所有業(yè)務(wù)場景健康度、俯瞰多維立體化 IT 指標(biāo)等能力的指標(biāo)管理體系。
首先,從銀行的核心業(yè)務(wù)場景開始,通過專業(yè)運(yùn)維數(shù)據(jù)庫平臺對應(yīng)用系統(tǒng)的 IT 數(shù)據(jù)源及業(yè)務(wù)數(shù)據(jù)源進(jìn)行統(tǒng)一數(shù)據(jù)采集、指標(biāo)提取和數(shù)據(jù)存儲;之后,針對銀行業(yè)務(wù)的特點(diǎn)及業(yè)務(wù)部門的需求,進(jìn)行指標(biāo)管理體系咨詢、調(diào)研,對IT 數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)進(jìn)行指標(biāo)梳理和方案建設(shè),形成指標(biāo)規(guī)范與實(shí)施制度;然后,結(jié)合指標(biāo)規(guī)范與實(shí)施制度進(jìn)行指標(biāo)體系管理,最終以功能模塊及平臺模式的方式完成該銀行指標(biāo)管理體系的建設(shè)。同時(shí),根據(jù)銀行業(yè)日常運(yùn)維場景,在指標(biāo)管理體系平臺的上層應(yīng)用中實(shí)現(xiàn)工作臺、可視化管控和AIOps等功能模塊的落地。
(二)指標(biāo)體系建設(shè)
1. 業(yè)務(wù)調(diào)研:聚焦業(yè)務(wù)場景、梳理業(yè)務(wù)指標(biāo)
通過業(yè)務(wù)調(diào)研,梳理該銀行的核心業(yè)務(wù),包括線下支付(比如:柜面存款)、線上支付(比如:手機(jī)銀行)、財(cái)富管理等,根據(jù)業(yè)務(wù)關(guān)注度和用戶體驗(yàn)影響度,同時(shí)結(jié)合業(yè)務(wù)部門的匯報(bào)報(bào)表和領(lǐng)導(dǎo)決策時(shí)參考的業(yè)務(wù)指標(biāo),梳理出核心業(yè)務(wù)場景的關(guān)鍵指標(biāo),示例如下:
2. 數(shù)據(jù)接入:拓?fù)?span lang=EN-US> IT 調(diào)用鏈、度量技術(shù)指標(biāo)
經(jīng)過調(diào)研銀行 IT 系統(tǒng)及自動化配置平臺的數(shù)據(jù),梳理出支撐銀行核心業(yè)務(wù)的應(yīng)用系統(tǒng),比如全渠道支付系統(tǒng)、支付前置系統(tǒng)、支付清算系統(tǒng)等;每個業(yè)務(wù)系統(tǒng)都有完備的 IT 系統(tǒng),根據(jù)核心業(yè)務(wù)系統(tǒng)的監(jiān)控現(xiàn)狀和指標(biāo)關(guān)注度,按照自上而下調(diào)用鏈的依賴關(guān)系分為五層的技術(shù)指標(biāo)監(jiān)控體系:應(yīng)用層、服務(wù)層、中間件層、進(jìn)程層(虛擬層)、主機(jī)層,結(jié)合多個銀行案例的指標(biāo)管理體系建設(shè)經(jīng)驗(yàn)對監(jiān)控源進(jìn)行指標(biāo)管理體系建設(shè),搭建各層指標(biāo)之間依賴拓?fù)涞年P(guān)系矩陣,示例如下:
上述各層的技術(shù)指標(biāo)都是一條獨(dú)立的實(shí)時(shí)序列數(shù)據(jù)流,通過銀行自動化配置平臺的配置項(xiàng)數(shù)據(jù)建立各層技術(shù)指標(biāo)之間的調(diào)用鏈拓?fù)潢P(guān)系網(wǎng),示例如下:
3. 模型配置:量化業(yè)務(wù)關(guān)注度、建模指標(biāo)健康度
搭建完成指標(biāo)管理體系的架構(gòu)分層后,結(jié)合核心業(yè)務(wù)指標(biāo),以結(jié)果導(dǎo)向的逆向思維對各層指標(biāo)的權(quán)重進(jìn)行評定:業(yè)務(wù)指標(biāo)的穩(wěn)定依賴業(yè)務(wù)子系統(tǒng)的穩(wěn)定、業(yè)務(wù)子系統(tǒng)的穩(wěn)定依賴 IT 應(yīng)用系統(tǒng)的穩(wěn)定、IT 應(yīng)用系統(tǒng)的穩(wěn)定依賴 IT 系統(tǒng)各層級的穩(wěn)定、IT 系統(tǒng)各層級的穩(wěn)定依賴于各項(xiàng)技術(shù)指標(biāo)的穩(wěn)定,那么當(dāng)原子級的技術(shù)指標(biāo)不穩(wěn)定時(shí)如何風(fēng)險(xiǎn)升級向上滲透呢?通過對技術(shù)指標(biāo)進(jìn)行級別評定、權(quán)重分配的方式加權(quán)計(jì)算量化各項(xiàng)技術(shù)指標(biāo)的影響力。
例如,柜面存款是最核心的基礎(chǔ)業(yè)務(wù)系統(tǒng),需要從生死線指標(biāo)、關(guān)鍵指標(biāo)和標(biāo)準(zhǔn)指標(biāo)三個維度對柜面存款業(yè)務(wù)的健康度進(jìn)行模型配置:
柜面存款的生死線指標(biāo):交易成功率;體現(xiàn)業(yè)務(wù)可用性的單個指標(biāo)。
交易成功率的計(jì)算方式:單位時(shí)間內(nèi)的交易成功數(shù)除以相同單位時(shí)間的交易總數(shù)。
柜面存款的關(guān)鍵指標(biāo):請求成功率、平均響應(yīng)時(shí)間;直接影響業(yè)務(wù)態(tài)勢的一組技術(shù)指標(biāo)。
指標(biāo)解讀:當(dāng)成功率低于預(yù)期閾值時(shí),直接說明終端用戶在使用柜面存款功能時(shí),業(yè)務(wù)操作頻繁失敗,進(jìn)而影響用戶的使用體驗(yàn),導(dǎo)致客戶流失率提升。
柜面存款的標(biāo)準(zhǔn)指標(biāo):內(nèi)存使用率、CPU使用率;與業(yè)務(wù)態(tài)勢相關(guān)的單個監(jiān)控類技術(shù)指標(biāo)。
指標(biāo)解讀:當(dāng)主機(jī)層物理資源的 CPU 使用率、內(nèi)存使用率突升時(shí),可能會引起 IT 應(yīng)用系統(tǒng)單節(jié)點(diǎn)的不穩(wěn)定,但在微服務(wù)化、分布式架構(gòu)的背景下該風(fēng)險(xiǎn)不會蔓延影響到業(yè)務(wù)層。
對指標(biāo)進(jìn)行生死線指標(biāo)、關(guān)鍵指標(biāo)、標(biāo)準(zhǔn)指標(biāo)的分類評級是為了更準(zhǔn)確的量化定義每個指標(biāo)對業(yè)務(wù)主題健康度的權(quán)重,是建模業(yè)務(wù)場景健康度的重要影響因子,即通過加權(quán)計(jì)算所有技術(shù)指標(biāo)的權(quán)重獲得業(yè)務(wù)場景的健康度評分。
經(jīng)過定義健康度、設(shè)置權(quán)重后,建立起覆蓋柜面存款業(yè)務(wù)的健康度模型,示例如下:
4. 全局概覽:工作臺概覽業(yè)務(wù)場景、應(yīng)用墻俯瞰指標(biāo)態(tài)勢
工作臺作為指標(biāo)管理體系的上層應(yīng)用,承載了指標(biāo)體系管理的設(shè)計(jì)理念,即支持從業(yè)務(wù)場景墻、應(yīng)用墻、服務(wù)墻、中間件墻、主機(jī)墻等頁簽查看各層的健康度態(tài)勢;通過統(tǒng)一管理業(yè)務(wù)指標(biāo)與 IT 指標(biāo)的健康度,進(jìn)而支持從業(yè)務(wù)場景墻聯(lián)動查看 IT 系統(tǒng)各層的技術(shù)指標(biāo)健康狀態(tài),最終保障業(yè)務(wù)運(yùn)維的連續(xù)性。
• 業(yè)務(wù)部門的運(yùn)維視角
業(yè)務(wù)部門通過業(yè)務(wù)場景墻概覽各個業(yè)務(wù)場景的健康度評分,點(diǎn)擊業(yè)務(wù)場景下查看該業(yè)務(wù)場景依賴的子業(yè)務(wù)系統(tǒng)拓?fù)鋱D,通過顏色標(biāo)識(綠色表示健康、橙色表示危險(xiǎn)、紅色表示災(zāi)難)直觀地了解業(yè)務(wù)子系統(tǒng)中各 IT 應(yīng)用系統(tǒng)的運(yùn)行態(tài)勢,點(diǎn)擊 IT 應(yīng)用系統(tǒng)支持查看各項(xiàng)關(guān)鍵指標(biāo)的運(yùn)行狀態(tài)及趨勢圖,賦能分析業(yè)務(wù)場景的健康狀態(tài),精準(zhǔn)定位源頭、提升跨部門溝通效率。
業(yè)務(wù)視角-業(yè)務(wù)子系統(tǒng)依賴拓?fù)鋱D
業(yè)務(wù)視角-業(yè)務(wù)子系統(tǒng)運(yùn)維態(tài)勢深度分析
• 技術(shù)部門的運(yùn)維視角
運(yùn)維部門通過應(yīng)用墻、服務(wù)墻、中間件墻、主機(jī)墻概覽 IT 應(yīng)用系統(tǒng)各層技術(shù)指標(biāo)的健康度評分,點(diǎn)擊查看部門負(fù)責(zé)的 IT 應(yīng)用系統(tǒng)后看到該 IT 系統(tǒng)各層的指標(biāo)體系拓?fù)鋱D,點(diǎn)擊各層的實(shí)例對象查看該實(shí)例對象的各個指標(biāo)對象的運(yùn)行狀態(tài)、趨勢圖等實(shí)時(shí)數(shù)據(jù),賦能排查 IT 系統(tǒng)技術(shù)指標(biāo)的異常項(xiàng),預(yù)防于事前、告警于事中、回溯于事后,改變運(yùn)維方式、提升運(yùn)維效率。
運(yùn)維視角-應(yīng)用系統(tǒng)的立體拓?fù)鋱D
運(yùn)維視角-實(shí)例對象指標(biāo)態(tài)勢的深度分析
三、總結(jié)與展望
上述銀行指標(biāo)管理體系實(shí)戰(zhàn)取得的成果可歸納為如下兩方面:
• 通過分層串聯(lián)調(diào)用鏈的立體化構(gòu)建理念增強(qiáng)了運(yùn)維流程的完整度:打通了 IT 運(yùn)維流程各層級應(yīng)用系統(tǒng)的調(diào)用關(guān)聯(lián),做到端到端覆蓋,保障 IT 系統(tǒng)運(yùn)維連續(xù)性、提升整體系統(tǒng)運(yùn)維效率。
• 通過結(jié)合業(yè)務(wù)與運(yùn)維的拓?fù)淇梢暬O(shè)計(jì)理念提升了業(yè)務(wù)運(yùn)維效率:提高了業(yè)務(wù)黏合銜接運(yùn)維的透明度,基于度量驅(qū)動流程進(jìn)行優(yōu)化,從而建立高效協(xié)作、高度授權(quán)和持續(xù)改進(jìn)的組織文化。
銀行業(yè)的 IT 系統(tǒng)建設(shè)正在升級演進(jìn)階段,業(yè)務(wù)運(yùn)維的瓶頸點(diǎn)也在“閃轉(zhuǎn)騰挪”。指標(biāo)管理體系也會在流程精細(xì)化、算法智能化、運(yùn)維一體化的方向上乘勝追擊、乘勢而為。