在銀行數字化轉型進入深水區的當下,保障業務的連續穩定運營,并在出現異常時,確??焖俣ㄎ桓?,及時恢復業務運行,降低損失是IT運維業務的重點目標。但是隨著新技術、新業務的不斷涌現,銀行運維系統繁多,運維數據量大且結構復雜,運維數據煙囪效應明顯,導致出現問題后,根因定位緩慢,業務穩定性難以保證。在此背景下,為了實現高可用性,運維數據平臺化治理已經成為當務之急。華夏銀行截至2023年6月,已經實現了資產規模超過4萬億元的目標,在數字化轉型方面,華夏銀行緊扣“一流智慧生態銀行”的轉型目標。2023年從七大重點工程擴容至十大工程,共涉及123項重點任務。神盾工程作為七大重點工程之一,以強化智慧運行與安全管理項目群作為目標,提高安全運營能力。在此期間,華夏銀行與擎創科技分別作為甲乙方牽頭單位,共同推動《金融機構信息系統運維數據治理能力成熟度評估規范》的制訂工作,并以華夏銀行信息系統為樣本,對銀行運維數據的治理方法和平臺搭建技術等開展了合作研究。
運維數據管理:運維數據管理不規范,運維數據無生命周期管理標準,存儲取用對數據安全造成影響現狀:現階段銀行對于運維數據沒有統一的管理規范,各部門數據使用權限定義模糊,數據生命周期管理混亂。問題:缺乏統一的運維數據管理規范,導致在數據取用后,存儲位置、存儲時間、何時刪除、何時歸總以及數據被用于何處等方面都沒有明確的定義。同時,運維類數據中某些信息對于安全管理具有高度敏感性,例如日志類數據可能包含大量敏感信息。運維數據生命周期管理混亂對安全性提出了極大挑戰。運維數據標準:運維數據標準不統一,數據取用鏈條長且溝通消耗時間長,導致取用效率低現狀:運維數據的含義屬性、業務規則等標準不統一,數據取用時溝通成本高,重復性治理工作較多。問題:由于缺乏統一的運維數據標準,在獲取相關數據時,很難明確描述數據的具體內容,數據口徑無法統一。這導致了大量的人員溝通、協調以及開發工作,從而使得整個流程變得緩慢且繁瑣。數據資產狀況:銀行業務系統龐雜,運維數據孤島效應明顯,運維數據資產狀況模糊。現狀:隨著銀行業務系統日趨復雜,節點調用鏈關系也隨之變得復雜,網狀的關聯結構帶來了大量的復雜數據。同時,隨著銀行系統全面上云,分布式云計算,云原生架構逐步開始應用,銀行內新老運維產品并行使用,且云上、云下架構并行,致使運維系統復雜程度逐漸上升,運維工作的歷史包袱嚴重影響運維效率。問題:在銀行硬件設施及軟件系統不斷增加、升級的背景下,隨著運維數據量不斷攀升、數據種類日趨多樣化以及數據變更愈發頻繁,加之現階段各運維產品數據需要獨立處理,且數據之間未建立有效鏈接。致使數據孤島效應明顯,運維數據的基礎質量不清晰,分布狀況不明確,關聯影響模糊,大幅增加了運維工作的復雜性。為解決上述痛點,華夏銀行急需從根源,轉變運維數據的管理與使用模式,從被動的運維數據取用模式,向主動且規范的運維數據管理方式演進,最終實現高效的智能運維分析。在此背景下,擎創科技成為華夏銀行運維數據治理平臺落地的合作伙伴。擎創科技依托智能大數據處理和分析能力,通過建立數據治理體系、建設數據治理平臺、提供數據應用價值,從而提供更有效、更高效的數據管理手段和治理方法。運維數據管理與標準:為了統一運維數據的管理與應用,擎創科技與運維數據相關方共同制定了數據治理體系,滿足數據取用需求。
對于數據平臺項目,首要任務并非直接處理數據,而是先建立健全的數據治理體系,包括數據管理規范與數據治理標準。只有在基礎工作完成后,才能持續推進數據平臺建設工作。在此過程中,首先,需確保涉及的相關人員明確目標,統一需求。在組織層面,應優先建立數據管理組織與制度。擎創科技協助華夏銀行成立了專門的管理組織,明確其管理職責和范圍,并制定數據管理規范與數據治理標準。隨后,通過明確的數據治理過程規范,實現數據質量、數據安全、數據生命周期、數據服務的管理能力。通過統一數據標準化規范,實現數據標準的對齊,包括標準指標體系,元、主數據模型、數據標簽體系等。最終保證數據取用過程標準化,滿足各方數據取用需求。數據資產狀況:為了實現運維數據資產的全面盤點,擎創科技從數據源頭出發,建立了完整的指標體系將運維數據進行關聯。數據資產盤點需要從數據采集源頭入手,通過統一采控底座實現數據的統一納管,打破數據孤島,拉通運維全域數據。原先,各個業務的運維數據源由各自分別維護,采集完成度無法監控,采集指標參差不齊。例如哪些設備需要監控哪些指標這類常規問題,無法給出全面標準的答案。為了打造運維數據平臺基座,擎創科技通過標準化指標體系,將指標是否已經采集完成,指標相關描述,指標采集粒度,指標閾值設定等進行標準化設定,從源頭保證運維數據采集完成,且采集數據質量高度可用。在此過程中,加入指標映射,統一建立數據對象,將運維數據進行關聯,并將原來的300多個指標優化至100個。實現運維數據資產盤點,為運維數據取用奠定可靠基座。標準指標體系按照數據分類、指標分類分層劃分如下圖所示。
基于華夏銀行數據治理痛點,同時結合擎創科技運維數據可視化、智能化的能力,擎創科技設計了一套符合金融機構運維數據治理規范的一體化平臺方案。該方案能有效降低運維數據獲取及管理成本,提升數據共享價值。方案思路如下圖所示。
- 通過數據統一采集處理實現全域運營數據的資產盤點與數據關聯
- 通過數據標準化體系實現數據口徑統一
- 通過運維數據中臺實現高效且靈活的大數據處理能力
- 通過數據治理過程管理能力實現數據質量、數據安全、數據生命周期、數據服務的管理能力
- 通過數據應用能力實現數據應用場景的定制和數據洞察能力的輸出
整體落地實施分為四大階段,戰略規劃階段、治用并舉階段、場景豐富階段、智能創新階段。首先,在戰略規劃階段,通過與運維領導層,一線員工的深度溝通,輸出統一的數據治理體系。明確數據管理方,生產方,消費方,保證在數據管理規范與數據治理標準達成一致。由于運維數據涉及取用方橫跨價值鏈,為捋清各方應用要求,保證數據治理體系高度可用,擎創科技用了3個月的時間進行需求梳理。從運維數據管理方出發,明確數據權限控制與數據取用各方角色,隨后與數據生產方、消費方進行多方訪談,明確數據生命周期管理需求(包括生產,存儲,解析,消費,銷毀等)、數據等級、數據口徑標準、存儲周期等細節。最初版本輸出了近20萬字的數據治理體系。最后經過多方調研,精簡至幾萬字。其次,在治用并舉階段,以點破面,從結構化數據入手,首先形成示范效應,再通過治用并舉,拓展場景。在華夏銀行案例中,擎創科技通過調研,最終決定以人行運維數據上報這一緊急應用場景做為抓手,推進落地。在這一場景中,大量運維數據需要在90秒內進行上傳。當時銀行在此面臨兩大問題,首先,數據源多、業務邏輯和處理流程復雜,導致海量數據處理過程復雜,處理效率較低。其次,算力不足導致上傳無法滿足時延要求。在此背景下,擎創科技決定先將數據治理一體化平臺結構搭建起來,滿足人行數據上報時間窗口標準。在組織內部做出效果。隨后,進行治用并舉,即保證已治理場景穩定應用的同時,從業務數據,性能數據入手,逐漸加入新的數據應用場景,快速提供較為典型的,或者緊急應用的場景,如交易量數據,成功率,響應時間,與銀聯或支付寶等平臺結算等應用場景。未來,運維數據平臺將在豐富場景的同時,引入算法,實現智能運維。通過逐步接入半結構化數據以及非結構化數據,運維數據平臺將進一步豐富應用場景。如接入流程管理數據、告警平臺數據、自動化執行數據等。同時,進行智能化探索,引入人工智能進行運維數據分析,比如進行數據自動打標,分辨數據表征,如周期性、峰值等。在疫情期間,該項目用時近一年完成,目前仍在下一階段建設中?,F階段,數據標準化中心實現了標準元數據、主數據、數據源、指標體系、標簽體系、指標中心、指標映射等核心標準化能力。其中指標體系從原來的300個縮減至100個,剔除了大量類似、冗余的指標,數據的標準化大幅提高了數據開發效率。
同時,該平臺的數據處理中臺具備高效編排復雜解析任務的處理能力,將數據服務開發流程從天級縮短至小時級。處理能力特性包括:流批一體、在線任務編排、在線任務調試、可視化管道任務編排等。
在數據應用方面,為方便一線運維人員的數據取用,增加使用效率,數據應用中心提供了大量開箱可用的數據處理算子,實現了數據服務場景的管理,數據服務場景整體上可以歸納為數據治理、運維分析、運維決策三類場景。提供了靈活且自助式的應用場景定制能力。
在落地過程中,擎創科技總結了該運維數據平臺的關鍵成功要素。即從數據治理制度規范入手,以統一數據標準為基石,結合客戶需求,以點破面,形成示范效應,最后橫向拓展場景,縱向深挖智能運維能力,實現智能運維。
第一,制度先行:運維數據治理成功的前提是要有管理規范,使運維數據在采集,儲存,分析,管理,應用過程中有規則可依。將治理的理念貫穿于整個平臺和數據的全生命周期中,形成一套完整的管理規范。第二,標準統一:數據標準統一是治理成功的基礎。數據對象和指標的標準化將直接影響最終的數據應用、數據洞察效果。數據標準不統一的運維數據平臺,不僅無法達到降本增效的目標,還會影響智能運維平臺的最終效果,影響系統平穩運營。第三,以點破面:實施階段,需要結合客戶需求,以緊急且重要的使用場景為突破點,首先搭建運維數據平臺框架,推廣使用效果,讓相關方了解使用效果,為后續配合工作搭建基礎。第四,治用并舉:運維數據平臺的落地過程中,需要治用并舉。即按照場景優先級加入運維數據平臺,新場景開發與已開發場景使用并行。在試點場景落地后,根據數據的重要程度、應用頻率及數據價值的高低,對運維數據應用場景的重要性以及緊急性進行排序。按照場景優先等級進行逐個落地推廣。