Meta 挑戰 LLM 模型愈大愈好的假設 推出參數量不到 10 億的 MobileLLM 研究方法

Meta推出MobileLLM,適用於智慧型手機等資源有限裝置的高效AI模型,挑戰大模型假設。

Meta 的 AI 研究人員最近公佈新 AI 模型 MobileLLM 的研究,是為智慧型手機和其他運算資源有限的裝置而設計的高效語言模型,同時挑戰了既有模型參數愈多愈準確的假設。

MobileLLM Model Performance

這項研究的研究團隊由 Meta Reality Labs 、 PyTorch 和 Meta AI Research (FAIR) 部門組成,他們想實驗參數量小於 10 億的模型最佳化方法。 10 億是 GPT-4 等大模型參數的零頭而已,外界預估 GPT-4 參數量超過一兆。

Meta AI 首席科學家 Yann LeCun 說明這項研究重點包括:

  1. 突顯模型深度比廣度重要
  2. 實作內嵌 (embedding) 共享與群組查詢注意力 (grouped-query attention, GQA)
  3. 利用創新的立即區塊導向權重共享 (immediate block-wise weight-sharing) 技術。

這些設計元素讓該公司 MobileLLM 1.25 億及 3.5 億版本模型在執行準確率上,比同樣大小的其他(稱為 state of the art, SOTA)模型平圴均值高出 2.7% 和 4.3% 。雖然看似不多,但對 LLM 而說已是相當大的改進了。

Credit: “MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases”, Zechun Liu et. al, Meta

此外 3.5 億版本 MobileLLM 在特定 API 呼叫的準確率和 LLaMA-2 7B(70 億參數)不相上下,這顯示對某些應用而言,較小型的模型不但使用較少運算資源,準確性也不會大打折扣。

MobileLLM 的開發也正呼應了企業想要高效 AI 模型的潮流。超大型模型發展趨緩,相反地,研究人員開始探索小型、專門化的模型設計,稱為小型語言模型 (small language model, SLM) 。 MobileLLM 目前尚未開放大眾使用,但 Meta 已將預訓練程式開放原始碼,讓其他研究人員自建模型,或是開發跑在行動裝置上的 AI 應用。

在裝置端 AI 模型方面,Google 已經推出了 Gemma 1 、 2,蘋果也公佈了 OpenELM,其中 OpenELM 也有二個版本小於 10 億(OpenELM 270M/450M)。

來源:VentureBeat

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link