Nvidia 發表合成資料模型 Nemotron-4 340B 協助企業自主訓練 AI

Nvidia公開Nemotron-4 340B AI模型系列,用於生成合成資料,支持50種語言及40種程式語言,助企業自行訓練大型語言模型。

Nvidia 上周宣佈公開 Nemotron-4 340B AI 模型系列,可合成資料作為訓練大型語言模型 (LLM) 之用。這讓各種產業的企業都能自行產生特定領域的 LLM 而無需花大錢取得真實資料集。

Nivida 之前已在 LMSys.org 的 Chatbot Arena 專區提供 Nemotron-4 340B,但當時以神祕的 june-chatbot 為代號,引發 AI 社群猜測。

合成資料 (synthetic data) 是透過電腦模擬或演算法產生的加註資訊。這種資料可以取代真實歷史資料,用以訓練人工智慧模型。尤其當真實資料集缺乏足夠的品質、數量或多樣化時,就需要有合成資料,具有降低成本及確保企業資料隱私、產生具有特定特徵的資料。

Nemotron-4 340B 系列包含三個模型,分別是基礎 (Base)、指令驅動 (Instruct) 和獎賞 (Reward) 模型,形成產生高品質合成資料的完整管線 (pipeline)。Nemotron-4 340B 是以 9 兆 token 的資料訓練,具 4K context window、支援 50 種自然語言和 40 種程式語言,比市面產品如 Mistral 的 Mixtral-8x22B、Anthropic 的 Claude-Sonnet、Meta 的 Llama3-70B、Qwen-2,甚至 OpenAI GPT-4 更強大。

Nemotron-4 340B 最值得一提的是它的友善授權。一名深度學習專家 Somshubra Majumdar 指出企業可用它來產生所有想要的資料。此舉可加速 AI 普及,讓各種規格的企業能夠自建適合特定需求的模型。
HelpSteer2 資料集的發佈令 Nemotron-4 340B 獎賞 (Reward) 模型一舉成為 HuggingFace 上 RewardBench 排行榜第一,也加深 Nvidia 在 AI 社群的貢獻。

Nemotron-4 340B 突顯 AI 晶片市場的激烈競爭。在英特爾、AMD 和蘋果在 AI 市場加速追趕的同時,Nvidia 也必須持續精進鞏固自己的領先地位。Nvidia 2019 年收購晶片製造商 Mellanox,以及企圖收購 Arm(但失敗)都顯示該公司想強化運算研發實力的企圖。

另一方面,Nemotron-4 340B 也會引發對好壞處的討論。合成資料可能有過度擬合、欠缺概括化能力。以合成資料訓練 AI 模型,也要當心資料偏見和錯誤資料導致訓練出的模型造成不良後果。

儘管有這些疑慮,AI 社群仍然樂見 Nemotron-4 340B 的推出。一些試用過 lmsys.org chatbot 的人對其效能和領域知識評價頗正面。

來源:VentureBeat

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、MIS、IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2023 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading