微軟公佈小型 LLM:Orca 2 推論能力不輸超大模型

微軟Orca 2小模型在零樣本訓練的複雜推論任務上,效能與5到8倍大的語言模型不相上下。

在 OpenAI 解僱自家 CEO、員工又集體揚言跳槽追隨 CEO 到微軟的鬧劇中,微軟並未因此忘了正事,在本周公佈較小,但在零樣本訓練的複雜推論任務上,效能與 5 到 8 倍大的語言模型不相上下的 Orca 2。

Orca2 有二種參數版本,分別為 70 億和 130 億參數模型,都是在第一代 Orca 模型上訓練而成,藉由模仿其推論步驟而演化出強化推論能力。

微軟研究人員表示,透過 Orca 2 顯示更好的訓練訊號和方法,可以讓小型語言模型獲得以往只有大型模型才有的推論能力。微軟也將 Orca2 開原出來,給特別是資源有限的企業來開發客製化 AI 應用,而無需在大量運算容量上花大錢。

教小模型推論

大型語言模型如 GPT-4 的推理答複雜問題的能力令企業及消費者欽佩,但較小版本往往喪失這能力。微軟研究院因此決定以度客製化的合成資料集微調 Llama2 基礎模型來縮小差距。

然而,微軟的作法不是採用「模仿學習」(imitation learning),即訓練較小模型來複製大模型的行為,而是訓練模型在不同任務上採用不同方案的策略。例如 GPT-4 可直接回答複雜問題,但小型模型則可將同一任務切成數個步驟來達成目的。更重要的是,他們希望小模型可以決定什麼才是最有效的解決方案,

訓練資料集則是來自強大的教師模型 (teacher model),它教導學生模型二方面,一為使用推論策略的方法,二為在任務中使用上它的時機。

Orca 2 效能不輸大模型

在 15 種不同標竿測試(零樣本測試)中,包括語言理解、常識推理、多步驟推論、數學問題、閱讀理解、摘要及真實性中,Orca 2 的結果不是優於,就是等同 5 到 10 倍大的模型。

Orca 7B 和 13B 的所有標竿項目平均已超過 Llama-2-Chat-13B/70B,以及 WizardLM-13B/70B。只有在 GSM8K 標竿測試中,WizardLM-70B 是大幅超前 Orca 及 Llama 模型。

雖然小模型效能優於大模型對企業組織是一大好消息,但必須注意它也承襲了其他模型及基礎模型常見的限制。

微軟也說,訓練 Orca 模型的手法也能用於其他基礎模型,可用於小型模型的推論、專門化、控制及安全。在訓練後的階段,使用精心篩選合成的資料已成為改良模型的主要方法。而隨著大模型愈來愈厲害,Orca 2 也成為多元化模型應用和部署選項的一大步。

近日也有其他模型上演以小克大的戲碼。李開復成立的零一萬物 (01.AI) 上個月宣布雙語大型語言模型 Yi-6B 及 34B,也宣稱效果超過 70 億參數的 Llama2 及 1800 億參數的 Falcon 模型。此外,總部位於巴黎的新創公司 Mistral AI 近日以募資 1.18 億美金成當紅炸子雞,也宣稱其 70 億參數的 Mistral AI 效能超過 Meta LLama 213B。

來源:VentureBeat

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、MIS、IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2023 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416