設備類型:服務器、交換機、數據庫、中間件、虛擬機、磁盤陣列、應用軟件、操作系統、云平臺等。
設備品牌:華為、H3C、深信服、MySQL、Oracle、Tomcat、JBoss、RabbitMQ、Nginx、中鐵信安、聯想、IBM、CentOS、Red Hat、Windows Server 等。
功能需求:
- 實現數據中心與異地機房內不同品牌、型號的網絡設備、服務器、存儲設備等統一納管;
- 提供詳細的設備監控指標庫,支持對不同設備的 CPU、內存、磁盤、網口、溫度等指標進行實時監控;
- 提供實時的設備掉線、鏈路斷開告警;
- 自動定位故障位置和故障影響范圍,提升排障效率;
- 具備告警分析管理能力,能夠解決誤報錯報問題,提高告警準確度,可以通過多種途徑觸達告警信息;
- 提升例行巡檢效率,自動化生成巡檢月報、半年報、年報等報告;
- 解決現有工具下無法對業務系統、數據庫、中間件的監控運維難題;
- 可以對日志數據進行梳理、解析,實現日志數據結構化存儲展示并將異常轉化為告警,解決日志信息復雜、難管理的問題;
- 解決人工進行設備配置管理工作量大且操作復雜的問題,能夠快捷地對設備配置進行管理;
- 實現運維知識的積累,構建運維知識庫。
智和信通方案
智和信通在深入理解某鐵路信息中心的運維需求后,提出了一系列針對性的解決方案,旨在提升其監控運維平臺的運行效率、穩定性和智能化水平,并通過此解決方案的實施助力信息中心運維工作更加高效、穩定地進行。
異地設備統一納管
在網絡可達范圍內,僅需輸入 IP 范圍即可自動發現信息中心和異地機房中的各類設備,對設備進行統一納管。
識別其廠商、型號,生成資源邏輯拓撲或真實面板圖,匹配故障與性能監視器,并自動發現設備間連接關系,生成可視化鏈路,通過可視拓撲動態展示設備、鏈路的運行狀態。
豐富且可擴展的監控指標庫
針對某鐵路信息中心的設備品牌和型號,在匹配我們標準模型庫的基礎上,通過 SNMP、IPMI、SSH、Telnet 等協議對設備及監控指標進行擴展。
- 對服務器的監控指標:服務器品牌、型號、序列號、開機時長、CPU 使用率、內存使用率、硬盤容量、磁盤使用率、磁盤容量預測、磁盤 I/O、電源狀態、溫度信息、風扇狀態、網絡接口流量帶寬等;
- 對交換機的監控指標:交換機品牌、型號、CPU 使用率、內存使用率、電源狀態、風扇狀態、端口流量、網口狀態、網口輸入輸出流量、網口輸入輸出帶寬等;
- 對數據庫的監控:表空間、鎖數量、死鎖、并發數、連接數、緩存命中率、讀寫次數、讀寫速度、讀命中率、已用空間、最大空間等。
- 對中間件的監控:線程數、內存占用量、會話數、繁忙線程數量、請求服務數、請求服務錯誤數、連接數等。
- 對虛擬機的監控:虛擬機類型、CPU 使用率、內存使用率、磁盤使用率、磁盤容量、網口狀態、網口輸入輸出流量、網口輸入輸出帶寬等。
- 對磁盤陣列的監控:CPU 使用率、內存使用率、磁盤空間使用率、磁盤 I/O、網口狀態、接口流量等。
- 對操作系統的監控:Ping、CPU 使用率、內存大小、內存使用率磁盤空間、磁盤使用率、網口狀態、發送 / 接收流量、發送 / 接收帶寬、發送 / 接收丟包率、發送 / 接收錯誤包率、廣播包故障率、進程狀態、端口狀態等。
- 對云平臺的監控:磁盤可用資源、內存使用率、CPU 使用率、吞吐量等。
全面的告警管理,支持多種通知方式
支持多種告警機制,自定義配置告警閾值,具備主動的故障監控告警功能,第一時間獲取準確的告警信息,快速標示已執行操作的告警,迅速定位告警設備,提升告警處理效率,極大降低因網絡故障帶來的損失。
采用自動去重、風暴抑制、關聯聚合、維護期時間屏蔽、依賴屏蔽等多種智能告警降噪機制,對各類告警進行自動壓縮收斂,有效避免誤報和漏報。告警發生后,檢索異常問題關聯涉及的各項維度與影響范圍,一步定位到發生故障的源頭設備,快速定位故障根因。提供界面顏色、提示聲、光效閃爍、信息列表、Email、短信、釘釘、企業微信、個人微信等多種通知渠道,告警通知無延遲。
多維度性能管理,感知網絡狀態
實時監測并感知網絡性能狀態,全面覆蓋用戶 IT 環境。采集納入監控的服務器、交換機、數據庫、中間件、虛擬機、磁盤陣列、應用軟件、操作系統、云平臺等設備的性能指標。支持對實時、歷史性能數據進行統計分析,通過曲線圖、柱狀圖或表格等形象化地展示,按天、星期、月查看性能指標變化。
設備事件、日志集中管理
全面設備主動發送的 Trap、Syslog、Filter Alarm 等事件與日志消息,進行集中存儲和解析并提取有效信息,將日志存儲為可統計分析的結構化數據。根據對日志數據的挖掘與分析,通過配置告警規則和場景,將異常日志自動轉化為告警,定位其影響范圍。
端到端業務撥測,構建業務依賴關系圖片
針對用戶貨運系統、調度系統、車流服務等業務應用性能與用戶體驗進行檢測分析,以拓撲形式展示每個業務流程中的每臺相關設備。按照硬件層-虛擬化層-應用服務層-接口層-數據層-界面層-用戶層等建立業務依賴關系圖譜,并以可視化的方式直觀表達各層級對下層的依賴關系,以及同級之間的依賴關系。
對從業務的前臺受理到真正完成的整個業務流程所依賴的業務應用、服務器、中間件、數據庫、操作系統等進行實時監控分析,呈現業務各節點的實時運行狀態,包括用戶體驗、節點可用性、節點負載等狀態信息,快速定位業務瓶頸根因,并可根據用戶自愈策略,觸發自動運維實現故障自愈。
全量自動巡檢,解放人力
支持自定義巡檢策略,對設備的運行情況進行統計和報表生成,并可預設時間巡檢策略執行時間,進行自動化巡檢,如自動每周、每月、每年的固定時間對設備當前狀態進行巡檢,可向指定郵箱發送巡檢結果報告,實現對網絡設備的定期檢查,把握網絡運行中的易出現問題的環節,做到預防為先。
設備遠程控制,配置文件備份對比
將周期性、重復性、規律性的大量日常服務器配置工作,如批量分發配置文件、一鍵開關機、進程管理、應用管理、端口限速、ACL 配置等,轉化為依托于平臺的自動執行工作流,實現對服務器的批量、定時等自動化控制。
也支持配置文件批量備份、下載、周期性備份、查看等,對設備的多個備份文件進行對比。定期自動對設備策略進行巡檢備份,并可進行對比分析。
構建運維知識庫,促進知識共享協作
將各類運維操作、故障判斷等經驗,轉化為存在于平臺內的知識,形成團隊知識庫。涵蓋知識的存儲、檢索、更新、維護、審核,將運維工作中所需的運維文檔、操作指南、排障實踐、處置流程和配置信息等進行分類管理,所有成員均可進行知識分享,從而加速問題解決過程,促進團隊間的知識共享和協作,提升整體運維效率。
應用價值
過去某鐵路信息中心網絡監測工作主要依賴于傳統的巡檢和人工排查方式,在引入智和信通運維監測平臺對網絡監測系統升級改造后,不僅實現了對某鐵路信息中心網絡的運行狀態進行實時監控,更實現了全自動巡檢和設備遠程配置管理,不但有效預測并防止潛在故障的發生,也標志著其運維方式從傳統的巡檢和人工排查方式向智能化、自動化運維管理的轉變。
通過智和信通運維監測平臺實時了解網絡設備的運行狀況、網絡流量的變化情況及網絡拓撲結構的變化等信息,無需再到現場進行巡檢,不僅提高了工作效率,也降低了工作成本。同時,對信息中心網絡的運行數據進行深入挖掘和分析,提供更加準確、全面的故障預測和預警,及時發現網絡中的潛在故障點,通過多種報警方式,如短信、郵件釘釘、微信等,確保用戶能夠及時接收到故障信息并采取相應的處理措施。避免故障擴大化,減少由于設備故障或網絡問題導致的鐵路事故。除了實時監控和故障預警外,智和信通運維監測平臺還提供了豐富的管理功能。通過平臺對網絡設備進行遠程管理和配置,實現設備的自動化管理和維護。
在智和信通運維監測平臺的部署和應用后,不僅依托于強大的數據分析和處理能力,使得用戶可以更加精準地定位故障源頭,并采取有效的措施進行修復,大大提高了運維工作效率,也減少因故障帶來的損失。同時,通過自動化和智能化的運維管理,降低了對人力資源的依賴。運維人員無需再頻繁地進行手動巡檢和排查,而是可以通過平臺自動生成的報告和數據分析結果,快速了解網絡的運行狀況,極大地提高了運維工作的質量和穩定性。