無論企業規模大小,一座建置良好並充分提供後勤支援能量的機房,都是企業在資訊化及日常營運中重要的關鍵所在,但是對於如何有效進行機房管理,卻往往都是企業難以完全掌握的問題。
機房管理可分為環境、網路與伺服器等三大塊,過去都是分為三組人員分別管理,但隨著架構的演變及技術的成熟,新一代機房管理的作法已經將三者整合為一,透過多種技術讓管理者能大幅簡化工作負擔並縮短管理時間,讓作業更順暢,應變更即時。
過去一談到機房管理,我們總想到一間大大的房間,裡面擺滿了螢幕顯示著各種操作介面,並且有許多工作人員在裡面監控所有狀態。在代管或大型機房中或許的確是這種狀況,但對於一般企業來說,機房管理可能僅有 4 至 5 人組成一組,並且還細分為網路組、伺服器組及軟體組等子單位。
但是,企業營運卻不會直接面對這些管理人員,對於終端使用者來說,只會在發生狀況時質問「為什麼郵件又收不到?」、「為什麼網路很慢?」、「為什麼公用資料夾又找不到了?」等諸如此類的問題,看似相當簡單,但對於機房管理而言,都是相當頭痛且棘手的問題,因為每次一個問題發生,不同組別都得動員起來,逐一清查自己所屬環節的問題,甚至,連總務單位都得協同配合,不但時間上消耗甚久,同時也相當沒有效率。
過去:按步就班,眼不見為淨
由於過去的機房管理都是分屬不同單位處理,因此整個通報與處理程序就變得相當重要。許多企業會規範由一名權責人員負責接收相關故障通報訊息,而以他的專業判斷再轉交由相關單位負責處理。
但這種方式往往會遇到一定的困難,因為並不見得所有發生的狀況都是該承辦人員曾經遇過或可分類的,因此就得交由所屬管理人員分別分析處理。根據經驗來說,較難處理的問題短則一天、長則三天,才能找到問題所在,如果加上設備毀損的更換時間,更不知道會如何延宕企業營運了。
以收發郵件為例,不但包含了郵件伺服器、機房內外部網路及收件方郵件伺服器等環節,而其中又細分成如伺服器的硬體零件、磁碟容量、網路線材與設備、路由器及電信網路等面向。
如果所回報的錯誤訊息中沒有任何線索,所有維護人員就只能憑經驗各自判斷。這時候偶爾就會遇到彼此推卸責任的情事,因此在管理維修上,必須設定一套標準流程,並且要求所有維修人員依據檢核表進行,一步一步確認各種狀態。而對於維護人員來說,能夠盡量不要看到自己所屬範圍內出狀況就好,其他設備或單位出問題,與其多一事不如少一事,避免自己攬了太多事情而吃力不討好。
轉變:平臺整合,建構完整監控網路
會造成上述問題最大的關鍵,就在於每個領域擁有各自獨立的管理平臺,並且所有事件資訊都沒有辦法互通,因此造成業務上有任何問題時,都必須要從不同的管理平臺與介面了解各種異常狀況,如何分析這些異常狀況間的關聯性與因果關係,就成為機房管理小組最大的考驗。
有鑑於這些管理上的瓶頸,新一代的機房管理概念,開始從各自為政的管理方式,逐步往訊息集中、管理整合與操作單純化的方向邁進。早在 2007 年,我們就可以看到像是 Opsware 之類的伺服器管理平臺,已經開始強化伺服器與機房環境間的整合管理機制,並希望導入各種自動化機制,以降低管理人員的負擔。
而像是 OpenView 或 Tivoli 等大型管理平臺,更是新增了各種周邊設備的訊息擷取與管理機制,希望能夠透過整合且集中的訊息統整平臺,進一步分析各種機房內發生的狀態。將每一項設備所觸發的訊息,整合成具意義且有關連性的事件,讓資訊環境的事件更能夠忠實反應現實環境中所遭遇到的問題。
但是這種整合最困難的環節便是如何能夠正確整合並分析相關資訊,因此目前各個設備廠商都傾向採用開放式架構,與其他領域的廠商合作,透過標準通訊協定及資訊欄位,彼此分享所接收到的訊息,並且利用標準的解釋法則,讓訊息整合平臺能夠更了解環境中設備的狀態,進而讓管理人員能夠更即時地了解機房狀態與問題所在。
未來:自動應變,降低人員負擔
資訊統整與分析,不單是為了簡化整體管理流程與訊息分析工作,更重要的是為了未來自動化管理做準備。機房管理部分該怎樣自動化調整呢?其實我們可以簡單從如何讓機房設備以最佳狀態運作的角度去了解。
機房內設備要能夠以最佳狀態正常運作,最重要的就是設備本身的零組件正常、電源供應穩定且環境維持恆定,因此整個機房管理要素就是環繞著這些原則而進行。目前已經可行的機房管理自動化,包含了電源管理、設備監控與告警、環境監控與調整,及系統運作效能穩定等項目。
透過這些自動化管理,我們不但能夠了解機房內所發生的各種狀況,同時也能夠避免將各種資源耗用在已經無效或是效能偏低的設備上,能夠讓所有設備以更經濟且有效率的方式運作。
而在這些自動化的過程中,管理者也可以設定各種回應規範,在較不需要人員參與的事件中,便可以讓系統自動回應,如自動調整溫度、加強供電或穩定電壓、關閉閒置設備電源或切換網路連線等。但部分較為關鍵且難以判定的事件,則可以讓系統在異常狀態發生時,提早發出警示,通知管理人員提早做因應,例如磁碟容量不足、系統效能異常或是連線速度降低等事件,就可交由管理人員監控,並進一步分析相關狀態,避免發生更大的問題。
如果過去的機房管理著重於強化單一管理機制與效能,現在新的機房管理概念就在於整合與分析並強化自動化過程,以期讓管理者可以降低工作負擔,並加速危機應變能力。畢竟,資源管理在新一代機房中是相當重要的課題。
(…未完,更多精采內容請參閱網路資訊雜誌 220 期 3 月號)
