最近給客戶做咨詢時,跟行業客戶談起關于IT運維管理在各業的運用,關于IT運維管理方面有一些總結,跟大家分享一下。先講一個大家都有可能經歷過的故事,一位叫Mark的客戶說他所在的公司承接了一個房產交易公司的網絡運維服務。順便介紹一下Mark,名校計算機專業畢業,是大家公認的技術專家,手下十來號人,技術底子也不差。項目運作初期,感覺很良好,蠻輕松自在的,而用戶對Mark團隊的服務也比較滿意。但是,最近一段時間經常出現故障,用戶網絡連不上房產交易系統,導致用戶向Mark的上司進行了投訴。Mark親自現場,把所有故障征兆都詳細分析了一遍,也搜出了幾個故障點,情況雖然有改善,但還是沒有把故障根本排除。整個團隊都加班加點地在現場進行故障分析,Mark覺得很郁悶。
聽Mark苦況之后,其他幾位客戶也感同身受。紛紛說起了自己的不幸,經常碰到莫名其妙的故障,加班加點排除故障,忙忙碌碌,象消防隊員一般不停地出現在解決問題的現場…..
聽到這些,我深表同情,他們都是在IT運維管理過程中深受其害的人。說起IT運維管理,大家都有所了解,但是要真正理解IT運維管理過程中的一些有效解決故障的方法,客戶的感覺是沒有很好的工具,只能在自己的負責區域里面用一些小聰明去解決一次兩次的問題,所謂的“投機取巧”。
其實,在IT運維管理過程中,主要的故障征兆表象就是一句話“網絡不通,服務連接不上”,但造成這個表象的原因卻有很多,整個網絡運維可以出現故障點的地方應該說數不勝數。單純依賴IT運維管理人員人工地去監測、排除故障,效率實在有點低。鑒于這些故障的原因,大體總結幾點,主要包括:網絡拓撲不清晰、故障定位難、異常流量監控困難、沒有行之有效的體制約束使用人員。
在此,我總結了幾個在IT運維管理過程中可以的借用的幾大利器,幫助我們IT運維管理人員走出困境。
利器之一,網絡拓撲圖。在日常的IT運維工作中,運維管理人員對網絡的監控只是單點地針對設備進行觀察以及排錯,無法對網絡整體進行有效的認識或監控,好一些的可以在自行畫制的靜態拓撲圖上簡單描繪著網絡的連接狀態。但僅有靜態的邏輯拓撲圖,對于日常IT運維還是遠遠不夠的。我們所需要的是一張能夠實在現實網絡中所有設備工作狀態、線路流量狀態并可以智能進行告警通知的拓撲圖。我們稱之為物理拓撲圖,所謂的物理拓樸圖是能真實地體現網絡中的物理運行狀態。北塔BTNM物理拓撲圖真實呈現網絡設備狀態,通過物理拓撲圖的展示,IT運維管理人員可以及時地知道網絡中發生的故障所在,網絡的壓力點所在,并且可以對網絡中的所有設備進行快速的瀏覽以及配置,可有效提高工作效率。
利器之二,IP地址簿。當網絡出現故障時, IT運維管理人員為了查找一個故障源IP需要先查找多臺路由器的arp表和交換機的mac表,最后定位到故障源IP所在端口位置。這個過程花費我們管理人員較長的時間,如果出現多個故障源時,情況會更加地惡劣。如果我們把整個網絡中所有IP地址、MAC地址、交換機端口的對應關系實時地整理成一個表格,當網絡中出現故障,需要查找故障源時,便可以快速瀏覽這個表格以進行故障定位。我們稱這個表格為IP地址簿。
利器之三,數據流分析。在網絡中所傳輸的流量,對于IT運維管理人員來說往往是不可見的,這其中包含有日常辦公所產生的合法流量。但是,有另外一部分的非法流量如互聯網下載、網絡病毒、黑客攻擊也會混入其中。過去,大家對應非法流量都無法進行監控的,讓非法流量占用了大部分的網絡帶寬以及造成服務器主機的崩潰都是有可能的事情。因此,我們需要對這些非法的流量進行監控,監控網絡中有可能產生非法流量的網絡線路。當網絡中出現匹配非法規則的數據流時,系統可以對產生非法流量的源頭進行定位,并且產生告警信息通知IT運維人員,或者更加智能化地對非法流量源頭進行堵截。以保證我們網絡的正常應用不受非法流量影響。
利器之四,行之有效的行政體制。有了以上三種必選利器后,IT運維管理人員可快速地對故障進行排查,也可以對造成故障的源頭進行跟蹤,但是,現有的狀況往往是這樣:“當IT運維人員發現故障源機器,是由于使用者不當地對網絡進行使用,在互聯網上任意下載文件耗損網絡帶寬、下載文件中有病毒導致病毒爆發、任意拔插網線導致網絡阻斷等等”。但又苦于IT運維部門是一個對內服務的部門,沒有相應的規章制度對使用人員進行約束。因此只能對使用人員說明故障原因,希望不要再犯。但是不久,又有另外一個人犯同樣的問題,又導致同樣嚴重的網絡故障。”為了改善這種對IT運維管理人員不利的狀況,需要企業管理人員對現有的IT運維工作進行高度的重視,制定一套行之有效的網絡使用規章制度,并且嚴格進行落實。
相信擁有上述的四大利器后可以解決日常IT運維管理的需要,我們在選擇網絡管理軟件的時候,也不妨以上述四大利器為鑒定的標準,來對網絡管理軟件進行對比。