Nvidia發表合成資料模型Nemotron-4 340B 協助企業自主訓練AI

Nvidia公開Nemotron-4 340B AI模型系列，用於生成合成資料，支持50種語言及40種程式語言，助企業自行訓練大型語言模型。

Nvidia 上周宣佈公開 Nemotron-4 340B AI 模型系列，可合成資料作為訓練大型語言模型 (LLM) 之用。這讓各種產業的企業都能自行產生特定領域的 LLM 而無需花大錢取得真實資料集。

Nivida 之前已在 LMSys.org 的 Chatbot Arena 專區提供 Nemotron-4 340B，但當時以神祕的 june-chatbot 為代號，引發 AI 社群猜測。

合成資料 (synthetic data) 是透過電腦模擬或演算法產生的加註資訊。這種資料可以取代真實歷史資料，用以訓練人工智慧模型。尤其當真實資料集缺乏足夠的品質、數量或多樣化時，就需要有合成資料，具有降低成本及確保企業資料隱私、產生具有特定特徵的資料。

Nemotron-4 340B 系列包含三個模型，分別是基礎 (Base) 、指令驅動 (Instruct) 和獎賞 (Reward) 模型，形成產生高品質合成資料的完整管線 (pipeline) 。 Nemotron-4 340B 是以 9 兆 token 的資料訓練，具 4K context window 、支援 50 種自然語言和 40 種程式語言，比市面產品如 Mistral 的 Mixtral-8x22B 、 Anthropic 的 Claude-Sonnet 、 Meta 的 Llama3-70B 、 Qwen-2，甚至 OpenAI GPT-4 更強大。

Nemotron-4 340B 最值得一提的是它的友善授權。一名深度學習專家 Somshubra Majumdar 指出企業可用它來產生所有想要的資料。此舉可加速 AI 普及，讓各種規格的企業能夠自建適合特定需求的模型。
HelpSteer2 資料集的發佈令 Nemotron-4 340B 獎賞 (Reward) 模型一舉成為 HuggingFace 上 RewardBench 排行榜第一，也加深 Nvidia 在 AI 社群的貢獻。

Nemotron-4 340B 突顯 AI 晶片市場的激烈競爭。在英特爾、 AMD 和蘋果在 AI 市場加速追趕的同時，Nvidia 也必須持續精進鞏固自己的領先地位。 Nvidia 2019 年收購晶片製造商 Mellanox，以及企圖收購 Arm（但失敗）都顯示該公司想強化運算研發實力的企圖。

另一方面，Nemotron-4 340B 也會引發對好壞處的討論。合成資料可能有過度擬合、欠缺概括化能力。以合成資料訓練 AI 模型，也要當心資料偏見和錯誤資料導致訓練出的模型造成不良後果。

儘管有這些疑慮，AI 社群仍然樂見 Nemotron-4 340B 的推出。一些試用過 lmsys.org chatbot 的人對其效能和領域知識評價頗正面。

來源：VentureBeat

Nvidia 發表合成資料模型 Nemotron-4 340B 協助企業自主訓練 AI

相關

previous微軟Windows 11 Recall功能將延後推出趕不及Copilot+ PC首批出貨

next微軟自9月6日起停用帳號密碼驗證方式改用憑證登入大多數微軟網站服務

發表迴響取消回覆

相關

相關

previous微軟Windows 11 Recall功能將延後推出 趕不及Copilot+ PC首批出貨

next微軟自9月6日起停用帳號密碼驗證方式 改用憑證登入大多數微軟網站服務

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

previous微軟Windows 11 Recall功能將延後推出趕不及Copilot+ PC首批出貨

next微軟自9月6日起停用帳號密碼驗證方式改用憑證登入大多數微軟網站服務

探索更多來自網路資訊雜誌的內容