Meta公佈最新大語言模型Llama 3.1 405B，號稱效能超越其他主流LLM

Meta推出Llama 3.1家族，包括405B版本，並在多個雲端平台上線。美國WhatsApp及Meta AI用戶可試用。

在眾家競爭者相繼公佈小語言模型之際，Meta 昨 (23) 日公佈經典大語言模型 Llama 3.1 家族，包括參數量達 4,050 億的版本，Llama 3.1 並在 IBM 、 NVIDIA 、 AWS 等多個雲端平台同步上線。美國 WhatsApp 及 Meta AI 用戶可搶先試用 405B 版本。

Llama 3.1 是 4 月公佈的 Llama 3 的新版，當時只提供 80 億 (8B) 及 700 億 (70B) 版本，今天 Meta 也公佈了 Llama 3.1 8B 及 70B 模型。 Llama 3.1 的 context length 加大到 128K，支援 8 種語言。

Meta 指出最新 Llama 3.1 405B 不僅是該公司最大模型，也相信是全球最大且功能最強的開原語言模型。它是以超過 15 兆個 token，在 1.6 萬顆 H100 GPU 環境中訓練而成。訓練策略上，團隊選擇標準的 decoder-only transformer 模型架構小幅修改，而非使用專家混合 (mixture-of-experts) 模型以擴大訓練穩定性。此外，研究人員也使用疊代後訓練，每一回都使用監督微調及直接偏好最佳化 (direct preference optimization, DPO)，使其得以建立最高品質的合成資料，一次一次提升模型效能。 Meta 號稱效能超越 Open AI GPT-4/GPT-4o 、 Anthropic 的 Claude 3.5 Sonnet 。

研究團隊也進行模型蒸餾，由模型精度由 16-bit(BF16) 降至 8-bit(FB8) 。透過模型蒸餾，開發人員得以將資訊從 Llama 傳授到小型模型上，如 Llama 3.1 70B 和 8B 。

為確保模型安全，Meta 也加入安全工具，包括 Llama Guard 3 、 Prompt Guard 和 CyberSecEval 3 。 Llama Guard 3 是一種輸入、輸入的多語仲裁工具，Prompt Guard 可防範指令注入攻擊，CyberSecEval 3 則是協助 AI 模型和產品開發商了解和降低 AI 網路安全風險的評估工具。

搭配 Llama 3.1 推出，Meta 也變更了授權，方便開發人員使用 Llama 3.1 模型來改進其他模型。新授權限允許模型蒸餾 (distillation) 及建立合成資料。現在開發人員和研究社群已可在 llama.meta.com 和 Hugging Face 上下載。

在一般用戶方面，現在 Llama 3.1 405B 只在美國開放 WhatsApp 及 meta.ai 用戶試用。

Llama 3.1 家族現在已在 25 個雲端平台，包括 AWS 、 IBM Watsonx 、 NVIDIA 、 Databricks 、 Cloudflare 、 Groq 、 Dell 、 Azure 、 Google Cloud 及 Snowflake 等上線。

Meta AI

MetaAI 昨天也宣佈 Meta AI 的 AI Chat，即將在歐盟及英國上線。 IG 中的 Meta AI 也增加 2 項新 AI 功能：Imaging Yourself 可以用戶相片為基礎，讓 MetaAI 製作頭像，Imagine Edit 則讓 MetaAI 編輯物件。另外，Meta 新增 7 種支援語言，包括法、德、義、西、葡、北印度語 (Hindi) 及天城文（Hindi-Romanized Script，印度和尼泊爾地區使用的文字）。 Meta AI 並且擴大上線地區，包括南美洲的阿根廷、智利、哥倫比亞、厄瓜多、墨西哥、祕魯、及非洲的喀麥隆。預期會逐步開放其他地區使用。 Meta 稍早提過，計畫不提供多模 AI 的歐盟，也會推出新版純文字語言模型。

來源：Meta

Meta 公佈最新大語言模型 Llama 3.1 405B，號稱效能超越其他主流 LLM

Meta AI

相關

previous微軟：全球大當機是因為歐盟協議讓Windows安全洞開

next瞄準Google而來？OpenAI公佈AI搜尋引擎SeartGPT原型

發表迴響取消回覆

相關

Meta AI

相關

previous微軟：全球大當機是因為歐盟協議讓Windows安全洞開

next瞄準Google而來？OpenAI公佈AI搜尋引擎SeartGPT原型

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

探索更多來自網路資訊雜誌的內容