Meta 開發懂得「自己教自己」的 AI 語言模型 Toolformer 只需要 67 個參數即可勝過 1,750 億個參數的 GPT-3

Meta研究人員公佈了名為Toolformer的AI語言模型,它可自己「教自己」使用外部工具,像是搜尋引擎、計算機和行事曆,而不會減損其核心語言模型的能力。

ChatGPT 等語言模型已經展現自然語言處理的進步,但是在一些簡單任務,像是算術或查找事實的能力則反而有待改善。上周,Meta 研究人員公佈了名為 Toolformer 的 AI 語言模型,它可自己「教自己」使用外部工具,像是搜尋引擎、計算機和行事曆,而不會減損其核心語言模型的能力。

Toolformer 之所以有這能力是因為它能使用 API 。在訓練時,研究人員給 Toolformer 小量人類撰寫的範例,示範如何使用 API,然後允許它以 API 呼叫為一個大型語言模型資料集加註解。它以自我監督學習法完成了這任務,即它可以在無需人類明顯指示下自己學習。

Toolformer 學習到預測每個文字型 API 呼叫,一如它預測其他類的文字一般。在運算時,例如基於人類輸入指令產生文字,它會在必要時插入 API 呼叫,此外它還能根據情境決定使用什麼工具,以及怎麼使用。

Toolfomer 的 API 呼叫能力讓它得以使用外部軟體工具,像是搜尋引擎、計算機、語言翻譯軟體。傳統上,雖然大型語言模型 (large language model, LLM) 不擅長算數,但 Toolformer 卻可以使用計算機程式來彌補這點。另外,如果人類要 Toolformer 在其行事曆上加入日期,它就能以 API 連結到外部行事曆 App 完成這項工作。

Meta 表示,Toolformer 是以預訓練的 GPT-J 模型開發而成,後者有 67 個參數。研究人員表示,在經過少量 API 呼叫的訓練後,Toolformer 因為學會使用包括維基百科搜尋引擎、 Q&A 系統、計算機、機器翻譯系統及行事曆等工具,其零樣本 (zero-shot) 設定的環境下(即沒有提供任何明顯指示)的執行效能比包含 1,750 億個參數的 GPT-3 模型還要高出許多。

這不是第一次研究人員試圖彌補語言模型的限制。事實上,本周引發熱烈討論的 Bing Chat 模型就能在必要時執行網頁搜尋,其他模型則試圖整合瀏覽器、計算機和搜尋引擎。 Meta 研究人員說,現有語言模型和工具的整合都仰賴人類標註,或是侷限於特定任務環境,但 Toolformer 則能使用各種工具,而無需為特定任務進行特別訓練。

有了 Toolformer 這類工具,將能讓 LLM 模型使用外部工具,而進一步釋放其威力,做更多事。但或許這也提高 LLM 為了提供答案,而傷害(如存取)用戶資料或製造更多麻煩的可能性。

來源:Ars Technica

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link