Splunk x NetApp:機器學習搭配高效儲存協助企業提高營運可視度

Splunk大數據分析平台提供在業務、生產及IT維運各方面分析的效益,配合NetApp如何發揮企業效益加乘效果?

思博軟體 (Splunk) 、儲存設備業者 NetApp 與零壹科技舉行技術研討會,展示 Splunk 大數據分析平台提供在業務、生產及 IT 維運各方面分析的效益,以及 Splunk 配合 NetApp 如何發揮企業效益加乘效果。

Splunk 機器資料分析平台 提供最佳 IT 維運可見度

Splunk 台灣區資深技術顧問陳哲閎首先說明 Splunk 如何實現企業營運可見度 (visibility) 。他首先指出,相較於傳統營運分析產品以 Schema at Write,且只能蒐集結構化資料的取徑,Splunk 最主要技術特性是 Schema at Read,即是一種以搜尋引擎為基礎,可以完整蒐集非結構化資料的所有軌跡,而且不必經過資料正規化,像是定義資料欄位、資料過濾、或是客製化連接器及導入資料庫。

今天企業 IT 基礎架構及應用服務涵括伺服器、儲存、網路、 VM 、不同應用系統及雲端,不但複雜,且彼此孤立、互不相通,再加上管理方案過時、零散、缺乏透通性,平日根本無從管理,只在每當發生重大服務斷線時才被動去找出問題根源,然而此時又相當耗費時間且勞民傷財。一個效率低落、缺乏可見度的 IT 管理環境,使管理員 80% 的時間都是花在救火、解決系統突發的故障、失靈,而沒有辦法做策劃性、創新性的長期規劃。

現今 IT 基礎架構及應用系統龐雜而各自孤立,形成管理的困難

Splunk 就是為了解決解決此類問題而生、為專門實現 IT 營運可見度而設計。 Splunk 可即時收集及索引包括作業系統、雲端、應用系統、資料庫或網路設備等各式機器資料完整軌跡,進行人、事、時、地、物的關聯分析,可進行即時監控,並產生視覺化報表,發現異常時也能即時發出主動警告,以支援 IT 維運及應用服務管理的需求,甚至提供更積極的商業洞見。

Splunk 可即時收集所有的軌跡,進行人、事、時、地、物的分析

Splunk 可即時匯整多元型態的大數據,從網路流量、 Syslog 、 DB 、 Hadoop 、 SNMP 、檔案系統到純文字資料,沒有容量限制。目前 Splunk 全球有超過 13,000 家客戶,其中最大一家的客戶每天可收超過 2 petabyte 的資料,將用戶的行動裝置用量資訊完整蒐集並匿名分析以了解用戶在不同應用上的使用模式。

另外,因應企業環境下有多種系統,Splunk 也提供超過 300 多個應用套件可供直接使用,包括 Unix/Linux 、 Windows 、 VMWare 、 NetApp 甚至 AWS 等雲端服務,以提供跨所有層次的營運可見度,進而做到積極的 IT 管理及主動式預防。

這對客戶有哪些效益?知名電子商務業者 Groupon 及線上遊戲業者、 Salesforce 及英國電信等企業運用 Splunk 確保 IT 維運的長治久安,亞洲一家知名金融機構即以 Splunk 的資料分析建構企業服務戰情中心。另一方面,現今網路威脅令人聞之色變,但利用 Splunk 則可透過系統 log 蒐集分析,協助企業管理員偵測發現公司系統及網路異常活動,有助發現蠕蟲、後門程式或其他惡意程式,確保客戶資料及公司機密的安全性。

而對台灣製造業目前正積極推動的工業 4.0 來說,Splunk 可用在產線系統的即時資料蒐集及深度分析,達到品質控管以及事前預防,大幅減少產線故障的機會,以及因此造成的財務損失。

NetApp 結合 Splunk 效果加乘 實現 TCO 最小化

NetApp 台灣分公司資深系統工程師簡俊彥說明,結合在大數據分析及儲存設備各據一方之霸的 Splunk 及 NetApp,可以為企業帶來何種加乘效益。

NetApp 和 Splunk 達成全球技術合作,使 NetApp 的 E 系列與 Splunk 軟體整合運作實現最佳效能,兩公司並投入合作參考架構、聯合白皮書及共同行銷活動。簡俊彥首先介紹 E 系列的特性,它是以最佳效能為設計核心的區塊式儲存 (block storage),採用即時作業系統 (real time OS, RTOS) 、具高 IOPS 、低延遲性、高密度的特色,並以雙主動控制器 (dual active controller) 、鏡像快取及備援電源與冷卻系統確保穩定性,同時相當彈性,支援 iSCSI 、 Fibre Channel 、以及罕見的 IB 及 SAS 等多種主機控制介面 (Host Interface Card, HIC),在磁碟類型上,也支援近線式 (Near-line)SAS 、 SAS 及固態硬碟 (SSD),支援全快閃 (All Flash) 及磁碟儲存的混合式架構。

E 系列最大特色是高效能,以執行數百萬 IOPS 的工作負載為例,競爭廠牌的全快閃磁碟需時 13 小時,全快閃磁碟陣列也需 1.5 小時,但高達 82.5 萬 IOPS 及 12GB/s 的 NetApp EF 560 則只需耗費 40 分鐘。基於磁碟支援彈性,E 系列在混合式環境下,可大部份使用 SAS 磁碟,只需運用少量固態硬碟作為快取,使底層架構成本大幅降低,在同一搜尋工作負載的測試中,E 系列 SAS 磁碟的效能完全不遜於全快閃儲存。

E 系列另外還有兩大特點。一是動態磁碟池 (Dynamic Disk Pool, DDP) 的新式 RAID 架構。這種新設計動態重新平衡 (rebalance) 較傳統 RAID 快 8 倍,能在其中一個磁碟故障時,將資料 volume 重新分散到整個儲存池的所有磁碟,確保了儲存系統的效能及 SLA 。另外,支援以固態硬碟作為讀取快取 (read cache) 的能力,有助於加快應用讀取速度,並可讓企業初期從一顆固態硬體開始,再視需求增加,有助控制 IT 投資。

藉由高效能、彈性、高密度、 DDP 及以 SSD Read Cache 等能力,E 系列減輕了企業資本支出 (CapEx) 、電力、冷卻的硬體成本及人事、維護成本 (OpEx),使總體擁有成本 (TCO) 比白牌 x86 伺服器內建硬碟的環境低 33% 。

從第 3 年之後 NetApp E 系列 TCO 將持續低於白牌產品

Splunk 與 NetApp 簽定全球技術合作後,使 E 系列與 Splunk 實現優異的整合效益,像是結合 Splunk 支援熱、暖、冷及凍 (hot, warm, cold, frozen) 不同資料的分層管理能力, E 系列可讓部署伺服器數量減少為 1/10,搜尋效能則增加 100% 。兩者搭配的結果,搜尋效能提升 169%,靜態搜尋增加為 131%,而在 streaming search 上更拉高到 207% 。

Splunk 與 NetApp E 系列在各種搜尋任務下皆較白牌產品大幅提升。

NetApp + Splunk 的組合已搏得全球知名企業的青睞,例如線上售票業者 Ticketmaster 。這家公司欲解決兩大營運挑戰,一是防範購票黃牛,二是監控售票成績。運用 6 台 NetApp E 系列 SAS 儲存及 Splunk NOC dashboard,提供容量及可用性問題偵測、交易件數、時間花費或失敗交易追蹤,使 Ticketmaster 得以偵測到購買者是機器人程式還是真實的消費者,同時可因應售票狀況,即時決定日後表演場次的增/減等。

先進智慧分析 提供預防式 IT 維運

對 IT 管理員而言,救火式的解決各種突發的機器失靈、故障事件這類沒有太多意義的事。 IT 廠商也一直試圖提供預防 (pro-active) 式的解決方案,讓管理員們免於這種勞心勞力的工作狀況。 Splunk 的 IT 服務智慧 (IT Service Intelligence, ITSI) 即運用了先進的人工智慧,使 IT 維運能更早、更深、更準確看到問題發生,進而積極做出對策。

思博軟體 (Splunk) 台灣區資深技術顧問陳哲閎本周在一場技術研討會上就 ITSI 的價值及功能做了介紹。 Splunk 以前就已提供機器學習 (machine learning) 的套件,然而企業用戶多半非統計學背景,不懂分析模型,因此 Splunk 就推出了一個整合機器學習能力的套件成為 ITSI,讓更多企業用戶也能享受到機器學習為基礎的 IT 智慧分析。

然而具備機器學習能力的 IT 維運分析和傳統的 IT 管理方案有何不同?傳統 IT 管理主要是建立組態管理資料庫 (configuration management database, CMDB),它需要定義好資料欄位、客製化連接器,才能將設備的感測資訊收入、建模分析。而 ITSI 則是一個資料驅動 (data-driven) 的解決方案,可廣納結構化、非結構化資料,經由人工智慧學習什麼是最適合企業的「正常值」、「異常值」,而依據輕重緩急提供告警、分析洞見,使救火救得快又準、看事看得早又深。

ITSI 和 ITIL(IT Infrastructure Library) 依據相同的精神,視 IT 為一種服務 (service),例如網路銀行、線上遊戲等。導入 ITSI 時,企業需先定義它想看的服務,並找出主機、作業系統、用戶活動等不同「主體」(entity) 及各自相應的 KPI,例如網銀網頁錯誤率最多到幾筆、交易回應秒數最多是幾秒,或是購物車內有多少筆商品、消費者花多久時間付款。

ITSI 導入方法論與 ITIL 精神相符

ITSI 的功能即是以此為核心發展而成。它提供異常監控、臨界值設定,ITSI 的機器學習智能還能學習到周間/周末、白天/黑夜、或上/下班不同的臨界值,並以設為可動態調整的多 KPI 告警規則。一旦它監控到某項活動即將超過臨界值,就發出重大事件告警 (alert),通知第一線人員進行處理,或是將事件後送更高層級人員。以網路攻擊為例,如果晚上出現網頁存取活動超出基準線,即可能為駭客入侵或 DDoS 攻擊。

ITSI 功能說明

服務分析器 (Service Analyzer) 可將所有服務的 KPI 健康狀態以綠、黃、橘、紅等顏色讓使用者一目瞭然。使用者也可利用拖拉戰情透視版 (Glass Table) 製作個人化儀表板,它甚至能整合使用者繪製的架構圖,或公司現有網路節點圖,提供視覺化方式清楚顯示服務的相依性,加快監控與決策。而如果使用者想進一步了解細節,則可點入深入剖析 (deep dive),即可檢視同一時間軸下各 KPI 的狀況。問題單事件分析介面則可整合企業現有 workflow,去除雜音和誤判,提供更精準的事件分析。

此外, Splunk ITSI 還針對主要的企業資產,如 OS 、 Application Server 、負載平衡 (Load Balancer) 、資料庫、虛擬層及 Web Server 預先內建 KPI,以加速企業導入與整合。

目前許多知名企業已導入 ITSI,例如一家汽車拍賣業者就用它來監控消費者從進入網站、選購產品、競價、下單到購買保險整個流程,藉此降低網站的錯誤率、提升消費者使用體驗。電信業龍頭 Vodafone 也運用 ITSI 的精確告警,確保電信設備的服務層級。

透過 ITSI 讓 IT 服務更智慧化,與業務流程更密切結合,就能使 IT 部門由被動打火隊,轉變為更積極的決策支援角色。

用 Splunk 機器學習工具包將 NetApp 效益發揮到極致

Splunk 作為新一代的 IT 維運管理方案,IT 服務智慧 (IT Service Intelligence, ITSI) 套件運用了人工智慧技術使 IT 管理員能更早、更深、更準確看到問題發生,和 NetApp E 系列整合使用相得益彰。如果企業沒有預算、還沒有採購的打算,那麼或可考慮 Splunk ML Toolkit(機器學習工具包) 。

思博 (Splunk) 台灣分公司台灣區資深技術顧問鍾嘉禮首先說明 Splunk 管理 NetApp OnTAP 的效益。隨著企業資料量愈來愈大,磁碟會往往不時出於不明原因而瞬間「卡住」。現在儲存系統相當複雜,一旦出狀況,若無法透通監控,IT 人員往往難以查出問題點。透過 Splunk,用戶可以清楚掌握磁碟系統各層,包括控制器、磁碟、 LUN 、 volume 或叢集,查出問題所在,例如因磁碟陣列設定錯誤負載平衡 (load balancing) 未能發揮,使某顆磁碟寫入量衝高,最後導致資料庫服務中斷。

Splunk 是完整的企業管理方案,在儲存系統的要求上,不需太昂貴機種,但需要高速磁碟寫入速度,NetApp E 系列正符合此類要求;以前客戶要建置搜尋、報表時,Splunk 總是建議磁碟應部署在本地端以加快索引速度,然而搭配 E 系列搜尋延遲性更低、 IOPS 更高。以亞洲某 Wi-Fi 服務供應商客戶為例,兩者組合使搜尋延遲性下降 20% 以上、 IOPS 增加可提供更高的索引效能、索引速度達 12,000 到 16,000 Kbps 長遠而言讓客戶整體擁有成本更為降低。

Splunk 與 NetApp 整合運用 為企業大幅節省整體擁有成本

Splunk 管理 NetApp E 系列可說是最佳組合,企業可選擇 ITSI 機器學習服務模組提供異常分析與告警,簡化 IT 維運,然而,ITSI 是需要付費的。如果企業具備機器學習的人才,且暫無導入計畫,則可使用免費的 Splunk ML Toolkit 。它延伸 Splunk 平台功能,並提供引導用戶建置分析模型的環境。它提供常見的 IT 、資訊安全、商業及物聯網應用等案例、內建超過 25 個標準演算法、 SPL 機器學習語法,以及 Python-based 的演算法客製化開發工具等,讓企業可針對任何應用案例進行客製化分析。

這在防止未預期的事故上尤其有價值。使用者可取得使用資料 (如空間、儲存速度、 IOPS 等),接著探勘資料,將狀態類似的資料群組,找出模型。接著將歷史及即時資料倒 (Fit) 入預測模型,再應用及驗證模型,不斷訓練、直到預測準確為止。之後建構出的規則就能用以預測資源使用、需求及滿載等狀況。而如果原本用於訓練的資料還不夠,還可將訓練資料比例再拉高,直到準確驗證為止。

以預測硬碟掛點的分析為例,Splunk 可以根據過往硬碟回應時間異常狀況,經由機器學習建立預測模型,再實際預測硬體狀況,經過反覆訓練,最後的演算法就能正確預測下次異常運作,甚至硬碟即將損毁,並將預測的事件通報給負責調查的 IT 管理員。企業將能因此減少系統不預期當機及可能引發的財務及商譽損失。

Splunk ML Toolkit 能根據過往硬碟運作狀態,預估未來硬碟何時可能發生異常

過去的 IT 維運方案需要建立組態管理資料庫 (CMDB) 、再以 ETL 進行分析。然而 IT 維運是相當成熟的領域,不需也不應像商業智慧 (BI) 一樣進行資料清洗、過濾、分類。在成為 ITSI 客戶之前,運用 Splunk ML 工具包,讓企業只要經過短時間的學習,也能客製出適合自己的智慧化 IT 維運分析方案,搭配 NetApp 使用更能發揮極致效果。

 

 

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link