ChatGPT 競爭者 Claude 更新到第 2 版,考試、寫程式分數更高、也更安全

Anthropic宣布ChatGPT競爭語言模型Claude 2版,使用者可在claude.ai試用,並提供商用API。改進在寫程式、數學和理解方面,性能超越前一版。輸入、輸出長度增加,具有更佳的準確性和記憶力。

Google 支持的新創公司 Anthropic 昨日宣佈 ChatGPT 競爭語言模型 (LLM) Claude 2 版,和 3 月的第 1 版不同,現在使用者可以在新的 beta 網站 (claude.ai) 免費試用,也提供開發商以商用 API 存取。

Anthropic 指出,Claude 設計宗旨是模擬同事或個人助理的對話情境,前一版用戶反映和 Claude 對話很容易,清楚解釋其思維,也較不會產生有害輸出,記憶也較持久。

Claude 2 的改進主要在三方面:寫程式、數學和理解。 Claude 2 在律師考試多選題部分得分率 76.5%,優於 Claude 1.3 的 73% 。和申請研究所的大學畢業生相比,Claude 2 在 GRE 閱讀及作文測驗得分超過 90% 人類,而定量推理題大約等於能力中等的申請學生。

Claude 2 的輸出、輸入長度也較前版擴充。它在 Python 寫程式測驗 Codex HumanEval 的得分由 56% 提升為 71.2% 。而在小學等級的數學題目組成的 GSM8k 題庫測試中,得分率也由 85.2% 升高到 88% 。

Anthropic 對 Claude 2 的重點之一,是在用戶輸入特定提示時,較不會產出有害或冒犯性輸出,雖然何謂有害是相當主觀及困難的判斷。根據 Anthropic 內部紅隊評估工具,Claude 2 產出無害回應的機會是 Claude 1.3 的 2 倍。

Claude 2 目前在美國及英國已開放個人及企業透過 API 存取。 Anthropic 說,目前已有 AI 內容輔助撰寫平台 Jasper 及 AI 程式撰寫平台 Sourcegraph 將 Claude 2 整合到其服務中。

值得一提的是,Anthropic 指出,Claude 2 之類的 AI 模型雖然能分析長而複雜的文章,但也有其限制。畢竟現行語言模型或多或少都會憑空捏造答案。用戶最好不要用它來查詢事實,而是讓它處理你提供的資料,最好是你熟悉的題目且能驗證其結果。

Anthropic 指出,AI 助理對日常生活情境,像是做重點摘要或整理資訊等最有幫助,不應該用於生理、心理健康及福祉相關領域。

來源:Ars Technica

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link