微軟完成訓練全球最大的Transformer語言模型 高達170億個參數

微軟AI & Research今天宣佈一個它稱為全球最大的Transformer為基礎的機器學習語言產出模型,以開原專案釋出深度學習最佳化函式庫DeepSpeed,希望DeepSpeed函式庫能降低成本、提升速度、規模和可用性。

微軟AI & Research今天宣佈一個它稱為全球最大的Transformer為基礎的機器學習語言產出模型,並且以開原專案釋出深度學習最佳化函式庫DeepSpeed,以協助加速大型模式的分散式訓練。

AI領域的科學家必須有大型自然語言模型以提高語言辨識的精準度。但是訓練大型自然語言模型相當耗時,成本也很高。微軟就是希望DeepSpeed函式庫能降低成本、提升速度、規模和可用性。

微軟宣稱,DeepSpeed包含ZeRO(Zero Redundancy Optimizer),ZeRO為平行最佳化工具(parallelized optimizer)可降低模型和資料平行計算資源需求,同時提升訓練參數量,使DeepSpeed最高可訓練1000億個參數的模型。

而微軟也利用DeepSpeed和ZeRO訓練出Turing Natural Language Generation (Turing-NLG),它具備170億個參數,成為全球最大語言產出模型,是第二名的nVidia的Megatron的2倍大,且是第三名的OpenAI的GPT-2參數的10倍。

目前業界知名的大型語言模型OpenAI GPT-2、nVidia Megatron-LM和Google T5各有15億、83億及110億個參數。

微軟指出,Turing-NLG除了為文件和電子郵件做摘要,節省用戶時間外,還可提供文件寫作的協助或回答讀者對文件的疑問,提升Microsoft Office的使用經驗,未來甚至還可製作更流暢的語音機器人或數位助理,藉由和客戶對話提升客戶關係管理和銷售。

DeepSpeed的效益

以速度來說,以DeepSpeed訓練模型傳輸率最多可提高5倍。例如訓練GPT模型時,DeepSpeed結合ZeRO為底層的資料平行化(data parallelism)和nVidia Megatron-LM模型的平行運算化。在低頻寬互連的nVidia GPU叢集環境下,光使用Megatron-LM訓練標準的15億參數GPT-2模型,資料傳輸率提升3.75倍。而在高頻寬互連的nVidia DGX-2叢集中,訓練200到800億個參數的模型,速度也可提升3到5倍。微軟說,速度提升原因在於DeepSpeed記憶體效率及可以較低的模型平行及更大的批次(batch size)來配合這些模型。微軟說,傳輸率提升可降低訓練成本。例如訓練200億參數的模型時,DeepSpeed需要的資源少3倍。

此外,微軟也強調DeepSpeed的可用性更高,例如只要更動一些程式碼就能以以PyTorch模型使用DeepSpeed和ZeRO。相較於現有模型平行(model parallelism)函式庫,DeepSpeed不需程式重新設計或重構模型(model refactoring),也不會限制模型向度(dimension)、批次大小或任何訓練參數。此外,DeepSpeed也支援ZeRO-powered的資料平行和模型平行的彈性組合。

DeepSpeed和ZeRO都已開放給開發人員及機器學習研究人員使用,以節省使用Transformer架構的成本。一如Google的Meena及初期的GPT-2,微軟的Turing NLG可能也未提供公開示範。

來源:MS Power UserVentureBeat

關於我們

自1990年創刊UXmaster雜誌,1991年獲得美國LAN Magazine獨家授權中文版,2006年獲得CMP Network Computing授權,2009年合併CMP Network Magazine獨家授權中文版,2014年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、MIS、IT人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2022 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416