Microsoft 365上周全球斷線數小時 原來WAN路由器IP變更是元兇
上周微軟Microsoft 365全球斷線,許多人哀嚎大半天無法工作,經查元兇是一台路由器IP位址變更造成封包瓶頸。
微軟是在全球協調時間1月25日早上7:05(台灣時間下午3:05)發生Teams、 Exchange Online、Outlook、SharePoint Online、OneDrive for Business及Azure Government雲服務等多項服務斷線。雖然有些地區2小時後即回復連線,但斷斷續續的情形仍然又持續了3個多小時。
微軟事後說明,這是因為WAN路由器 IP 變更,在變更過後重新計算的過程中,多處經由雲端虛擬私人專線ExpressRoute的用戶端和Azure連線異常。微軟指出,變更的指令在不同網路設備有不同行為,而該指令並未經過完整驗證。結果導致使用者無法存取代管在Azure或其他Microsoft 365及Power平台服務上的資源。
微軟的監控系統當天7:12偵測到DNS及WAN問題。到了8:20微軟工程師發現問題指令觸發上述問題。40多分鐘後,微軟網路資料顯示許多服務已恢復運作。不過最初WAN的問題也引發自動化運作維護系統部份功能暫停,包括發現和解決問題裝置、最佳化整個網路上資料流量的流量控制系統等,使得網路某些路徑發生封包遺失,直到人工手動重啟,使WAN回到正常運作才解決。完全回復要等到12:43。
微軟表示,工程人員未來將採取新措施以防範類似或更嚴重事故,手段包括「防止在裝置上執行高影響指令」,以及要求所有裝置上的指令執行都必須遵行安全指引。
微軟預計下周公佈最後調查報告。
來源:The Register