上周微軟 Microsoft 365 全球斷線,許多人哀嚎大半天無法工作,經查元兇是一台路由器 IP 位址變更造成封包瓶頸。
微軟是在全球協調時間 1 月 25 日早上 7:05(台灣時間下午 3:05)發生 Teams 、 Exchange Online 、 Outlook 、 SharePoint Online 、 OneDrive for Business 及 Azure Government 雲服務等多項服務斷線。雖然有些地區 2 小時後即回復連線,但斷斷續續的情形仍然又持續了 3 個多小時。
微軟事後說明,這是因為 WAN 路由器 IP 變更,在變更過後重新計算的過程中,多處經由雲端虛擬私人專線 ExpressRoute 的用戶端和 Azure 連線異常。微軟指出,變更的指令在不同網路設備有不同行為,而該指令並未經過完整驗證。結果導致使用者無法存取代管在 Azure 或其他 Microsoft 365 及 Power 平台服務上的資源。
微軟的監控系統當天 7:12 偵測到 DNS 及 WAN 問題。到了 8:20 微軟工程師發現問題指令觸發上述問題。 40 多分鐘後,微軟網路資料顯示許多服務已恢復運作。不過最初 WAN 的問題也引發自動化運作維護系統部份功能暫停,包括發現和解決問題裝置、最佳化整個網路上資料流量的流量控制系統等,使得網路某些路徑發生封包遺失,直到人工手動重啟,使 WAN 回到正常運作才解決。完全回復要等到 12:43 。
微軟表示,工程人員未來將採取新措施以防範類似或更嚴重事故,手段包括「防止在裝置上執行高影響指令」,以及要求所有裝置上的指令執行都必須遵行安全指引。
微軟預計下周公佈最後調查報告。
來源:The Register
