中國銀行業正進入以數字化為導向發展的關鍵時期。相比于其他行業,中國銀行業的運維建設有著 IT 系統規模龐大、業務系統跨代且復雜的特殊性。金融監管機構對中國銀行業的穩定性、安全性也有著嚴格的政策要求,但很多銀行由于頂層數據指標規范和指標體系建設不完善,導致 IT 技術指標與業務運營指標數據質量較差、關聯性較弱、場景覆蓋分散等問題。
中國銀行業數據指標規范應基于銀行核心業務和 IT 運維管理的頂層規劃,將業務指標與 IT 運維進行層次化建模,打造數據多源整合、指標拓撲關聯的指標管理體系,以此作為業務運維監控與管理的落地抓手,從而幫助 IT 部門改善運維方式、提升運維效率、保障業務穩定性。
一、背景
銀行 IT 系統在云化、容器化、中心化、微服務等架構迭代演化進程中,系統架構和業務調用關系復雜,運維管理難度日益凸顯。銀行業務系統多采取煙囪式建設方法,數據互通困難,運維團隊無法做到及時響應、及時發現并解決問題。目前,銀行業整體上已具備結合業務場景收集比較完整的 IT 指標數據的能力,亟待一套指標數據分析體系為 IT 管理與業務分析提供可量化、可視化、集約化的決策支撐。
然而,中國銀行業在實踐指標管理體系的過程中會遇到以下幾方面的挑戰:
●統籌全局運維數據源的挑戰
中國銀行業正處于傳統向互聯網轉型期,云計算、大數據等新興技術也在逐步開展,而且銀行業需要海量的 IT 計算力和實時的響應速度才可以滿足持續推出創新業務的訴求。簡言之,銀行業運維數據源的數據量級在增加,而業務部門對實時處理響應時間的期望值在減短。
此外,對于單個業務部門的指標數據,可以依賴個人對業務場景的經驗快速作出判斷并應用于 IT 運維管理工作。但銀行系統時時刻刻都會產生海量的指標數據,IT 管理人員無法判斷指標數據對于業務的重要性、優先級,更無從下手梳理指標數據與業務的關聯性,從而無法聚焦某個業務場景內的指標數據,導致指標數據無法發揮出其潛在價值。
● 持續創新智能算法庫的挑戰
中國銀行業數字化轉型正在挑戰 IT 的組織和管理方式,技術正在越來越多地集成于業務,IT 不再局限于支持技術,更是創新的推動力。銀行業由于自身的特性,對于加速創新業務的訴求迫在眉睫,而針對業務場景創新的智能算法模型正是解決此類訴求的不二法寶。
●跟跑智能運維新理論的挑戰
智能運維雖然已經發展多年,但仍處于探索階段。指標管理體系實踐過程中需要吸收智能運維領域中像 ITIL 4 和 IT4IT 等標準的新理論體系,才能讓指標管理體系發揮出對業務智能運維的巨大推動作用。
二、云智慧銀行指標管理體系落地實戰
一套完善的指標管理體系應基于企業業務和 IT 運維管理的頂層規劃,將各個業務系統的孤立數據進行分類、分層管理,從而通過更系統、更有層次的方式來展示業務場景的指標數據,使之成為以數據為驅動、面向業務運維監控與管理的落地抓手,讓 IT 管理員能夠將繁雜的 IT 管理工作升維從簡,在改善 IT 管理方式的同時提升企業整體的 IT 運營效率。
(一)落地實施方案
某銀行指標管理體系的實施落地項目基于頂層指標管理驅動,從業務視角切入,以業務場景為主題、以業務連續性為宗旨,通過直面業務場景、正向梳理 IT 調用鏈、逆向接入數據源等實施步驟,最終構建了一套具備概覽所有業務場景健康度、俯瞰多維立體化 IT 指標等能力的指標管理體系。
首先,從銀行的核心業務場景開始,通過專業運維數據庫平臺對應用系統的 IT 數據源及業務數據源進行統一數據采集、指標提取和數據存儲;之后,針對銀行業務的特點及業務部門的需求,進行指標管理體系咨詢、調研,對IT 數據和業務數據進行指標梳理和方案建設,形成指標規范與實施制度;然后,結合指標規范與實施制度進行指標體系管理,最終以功能模塊及平臺模式的方式完成該銀行指標管理體系的建設。同時,根據銀行業日常運維場景,在指標管理體系平臺的上層應用中實現工作臺、可視化管控和AIOps等功能模塊的落地。
(二)指標體系建設
1. 業務調研:聚焦業務場景、梳理業務指標
通過業務調研,梳理該銀行的核心業務,包括線下支付(比如:柜面存款)、線上支付(比如:手機銀行)、財富管理等,根據業務關注度和用戶體驗影響度,同時結合業務部門的匯報報表和領導決策時參考的業務指標,梳理出核心業務場景的關鍵指標,示例如下:
2. 數據接入:拓撲 IT 調用鏈、度量技術指標
經過調研銀行 IT 系統及自動化配置平臺的數據,梳理出支撐銀行核心業務的應用系統,比如全渠道支付系統、支付前置系統、支付清算系統等;每個業務系統都有完備的 IT 系統,根據核心業務系統的監控現狀和指標關注度,按照自上而下調用鏈的依賴關系分為五層的技術指標監控體系:應用層、服務層、中間件層、進程層(虛擬層)、主機層,結合多個銀行案例的指標管理體系建設經驗對監控源進行指標管理體系建設,搭建各層指標之間依賴拓撲的關系矩陣,示例如下:
上述各層的技術指標都是一條獨立的實時序列數據流,通過銀行自動化配置平臺的配置項數據建立各層技術指標之間的調用鏈拓撲關系網,示例如下:
3. 模型配置:量化業務關注度、建模指標健康度
搭建完成指標管理體系的架構分層后,結合核心業務指標,以結果導向的逆向思維對各層指標的權重進行評定:業務指標的穩定依賴業務子系統的穩定、業務子系統的穩定依賴 IT 應用系統的穩定、IT 應用系統的穩定依賴 IT 系統各層級的穩定、IT 系統各層級的穩定依賴于各項技術指標的穩定,那么當原子級的技術指標不穩定時如何風險升級向上滲透呢?通過對技術指標進行級別評定、權重分配的方式加權計算量化各項技術指標的影響力。
例如,柜面存款是最核心的基礎業務系統,需要從生死線指標、關鍵指標和標準指標三個維度對柜面存款業務的健康度進行模型配置:
柜面存款的生死線指標:交易成功率;體現業務可用性的單個指標。
交易成功率的計算方式:單位時間內的交易成功數除以相同單位時間的交易總數。
柜面存款的關鍵指標:請求成功率、平均響應時間;直接影響業務態勢的一組技術指標。
指標解讀:當成功率低于預期閾值時,直接說明終端用戶在使用柜面存款功能時,業務操作頻繁失敗,進而影響用戶的使用體驗,導致客戶流失率提升。
柜面存款的標準指標:內存使用率、CPU使用率;與業務態勢相關的單個監控類技術指標。
指標解讀:當主機層物理資源的 CPU 使用率、內存使用率突升時,可能會引起 IT 應用系統單節點的不穩定,但在微服務化、分布式架構的背景下該風險不會蔓延影響到業務層。
對指標進行生死線指標、關鍵指標、標準指標的分類評級是為了更準確的量化定義每個指標對業務主題健康度的權重,是建模業務場景健康度的重要影響因子,即通過加權計算所有技術指標的權重獲得業務場景的健康度評分。
經過定義健康度、設置權重后,建立起覆蓋柜面存款業務的健康度模型,示例如下:
4. 全局概覽:工作臺概覽業務場景、應用墻俯瞰指標態勢
工作臺作為指標管理體系的上層應用,承載了指標體系管理的設計理念,即支持從業務場景墻、應用墻、服務墻、中間件墻、主機墻等頁簽查看各層的健康度態勢;通過統一管理業務指標與 IT 指標的健康度,進而支持從業務場景墻聯動查看 IT 系統各層的技術指標健康狀態,最終保障業務運維的連續性。
• 業務部門的運維視角
業務部門通過業務場景墻概覽各個業務場景的健康度評分,點擊業務場景下查看該業務場景依賴的子業務系統拓撲圖,通過顏色標識(綠色表示健康、橙色表示危險、紅色表示災難)直觀地了解業務子系統中各 IT 應用系統的運行態勢,點擊 IT 應用系統支持查看各項關鍵指標的運行狀態及趨勢圖,賦能分析業務場景的健康狀態,精準定位源頭、提升跨部門溝通效率。
業務視角-業務子系統依賴拓撲圖
業務視角-業務子系統運維態勢深度分析
• 技術部門的運維視角
運維部門通過應用墻、服務墻、中間件墻、主機墻概覽 IT 應用系統各層技術指標的健康度評分,點擊查看部門負責的 IT 應用系統后看到該 IT 系統各層的指標體系拓撲圖,點擊各層的實例對象查看該實例對象的各個指標對象的運行狀態、趨勢圖等實時數據,賦能排查 IT 系統技術指標的異常項,預防于事前、告警于事中、回溯于事后,改變運維方式、提升運維效率。
運維視角-應用系統的立體拓撲圖
運維視角-實例對象指標態勢的深度分析
三、總結與展望
上述銀行指標管理體系實戰取得的成果可歸納為如下兩方面:
• 通過分層串聯調用鏈的立體化構建理念增強了運維流程的完整度:打通了 IT 運維流程各層級應用系統的調用關聯,做到端到端覆蓋,保障 IT 系統運維連續性、提升整體系統運維效率。
• 通過結合業務與運維的拓撲可視化設計理念提升了業務運維效率:提高了業務黏合銜接運維的透明度,基于度量驅動流程進行優化,從而建立高效協作、高度授權和持續改進的組織文化。
銀行業的 IT 系統建設正在升級演進階段,業務運維的瓶頸點也在“閃轉騰挪”。指標管理體系也會在流程精細化、算法智能化、運維一體化的方向上乘勝追擊、乘勢而為。