Meta開發懂得「自己教自己」的AI語言模型Toolformer 只需要67個參數即可勝過1,750億個參數的GPT-3

Meta研究人員公佈了名為Toolformer的AI語言模型，它可自己「教自己」使用外部工具，像是搜尋引擎、計算機和行事曆，而不會減損其核心語言模型的能力。

ChatGPT 等語言模型已經展現自然語言處理的進步，但是在一些簡單任務，像是算術或查找事實的能力則反而有待改善。上周，Meta 研究人員公佈了名為 Toolformer 的 AI 語言模型，它可自己「教自己」使用外部工具，像是搜尋引擎、計算機和行事曆，而不會減損其核心語言模型的能力。

Toolformer 之所以有這能力是因為它能使用 API 。在訓練時，研究人員給 Toolformer 小量人類撰寫的範例，示範如何使用 API，然後允許它以 API 呼叫為一個大型語言模型資料集加註解。它以自我監督學習法完成了這任務，即它可以在無需人類明顯指示下自己學習。

Toolformer 學習到預測每個文字型 API 呼叫，一如它預測其他類的文字一般。在運算時，例如基於人類輸入指令產生文字，它會在必要時插入 API 呼叫，此外它還能根據情境決定使用什麼工具，以及怎麼使用。

Toolfomer 的 API 呼叫能力讓它得以使用外部軟體工具，像是搜尋引擎、計算機、語言翻譯軟體。傳統上，雖然大型語言模型 (large language model, LLM) 不擅長算數，但 Toolformer 卻可以使用計算機程式來彌補這點。另外，如果人類要 Toolformer 在其行事曆上加入日期，它就能以 API 連結到外部行事曆 App 完成這項工作。

Meta 表示，Toolformer 是以預訓練的 GPT-J 模型開發而成，後者有 67 個參數。研究人員表示，在經過少量 API 呼叫的訓練後，Toolformer 因為學會使用包括維基百科搜尋引擎、 Q&A 系統、計算機、機器翻譯系統及行事曆等工具，其零樣本 (zero-shot) 設定的環境下（即沒有提供任何明顯指示）的執行效能比包含 1,750 億個參數的 GPT-3 模型還要高出許多。

這不是第一次研究人員試圖彌補語言模型的限制。事實上，本周引發熱烈討論的 Bing Chat 模型就能在必要時執行網頁搜尋，其他模型則試圖整合瀏覽器、計算機和搜尋引擎。 Meta 研究人員說，現有語言模型和工具的整合都仰賴人類標註，或是侷限於特定任務環境，但 Toolformer 則能使用各種工具，而無需為特定任務進行特別訓練。

有了 Toolformer 這類工具，將能讓 LLM 模型使用外部工具，而進一步釋放其威力，做更多事。但或許這也提高 LLM 為了提供答案，而傷害（如存取）用戶資料或製造更多麻煩的可能性。

來源：Ars Technica

Meta 開發懂得「自己教自己」的 AI 語言模型 Toolformer 只需要 67 個參數即可勝過 1,750 億個參數的 GPT-3

相關

previousGoogle下達動員令！執行長要求員工多花時間修正Bard的問題

next經歷多家私募基金 BMC傳悄悄申請IPO重回市場

發表迴響取消回覆

相關

相關

previousGoogle下達動員令！執行長要求員工多花時間修正Bard的問題

next經歷多家私募基金 BMC傳悄悄申請IPO重回市場

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

探索更多來自網路資訊雜誌的內容