吃草莓了！ChatGPT發表o1-Preview 多步驟思考可解決複雜邏輯問題

OpenAI正式發表代號為「草莓」（Strawberry）的新模型o1-preview和o1-mini，這是其首款「推理」模型，經過強化學習和「思考鏈」訓練，能比人類更快地回答複雜問題。

傳聞中開發代號為草莓 (Strawberry)，可取代 GPT-4o 的模型，終於正式面市了，OpenAI 宣稱 GPT-o1 可處理更複雜的查詢，但處理成本也比 GPT-4o 要貴得多。

OpenAI 剛發表一款名為 o1 的新模型，這是「推理」模型系列中的第一款，經過訓練能夠比人類更快地回答更複雜的問題。同步推出的還有 o1-mini，從名字就看得出來這是比較輕巧且便宜的版本，而且你猜對了，這就是最近在 AI 圈傳得沸沸揚揚的「Strawberry」模型。

對 OpenAI 來說，o1 代表更接近類人腦等級的人工智慧，在編寫程式碼和解決多步驟問題方面比以前的模型表現更好。但它的使用成本也更高，且比 GPT-4o 更慢。 OpenAI 將此次 o1 的發布稱為「預覽」，強調其尚處於萌芽階段。

從今天開始，ChatGPT Plus 和團隊用戶可以使用 o1-preview 和 o1-mini，而企業和教育版用戶將在下週初開始使用。 OpenAI 表示計劃向所有免費的 ChatGPT 用戶提供 o1-mini 的使用權，但尚未設定發布日期。開發者存取 o1 的成本非常高：在 API 中，o1-preview 每百萬個 token 收費 15 美元，每百萬個 token 收費 60 美元。相比之下，GPT-4o 每百萬個 token 收費 5 美元，每百萬個 token 收費 15 美元。

OpenAI 的研發主管 Jerry Tworek 表示 o1 的訓練方式與之前的模型完全不同，儘管該公司對具體細節含糊其詞。他說，o1「使用了全新的演算法最佳化和專門為其量身訂做的新訓練資料集進行訓練」。

o1 是如何練成的

OpenAI 之前讓 GPT 模型模仿訓練資料集的內容，但 o1 模型使用了一種稱之為「強化學習」的技術，訓練模型自行解決問題，透過獎懲機制訓練模型，然後使用「思考鏈 (chain of thought)」的方式來處理查詢，類似人類一步步解決問題的方式。

透過思考鏈，OpenAI 表示 o1 模型更為精確，「我們也注意到 o1 模型的幻覺現象有所減少，但尚未完全消除。」Jerry Tworek 表示。

根據 OpenAI 的說法，這個新模型與 GPT-4o 最大的區別在於它能夠更好地處理複雜問題，如程式編寫和數學，同時還能解釋其推理過程。

在 Codeforces 線上程式設計競賽中，新模型得到 PR89（贏過 89% 的參賽者）的成績，OpenAI 聲稱下一次更新的模型將在物理、化學和生物學等高難度基準測試中，取得與博士生相當的表現。

然而，由於 o1-preview 目前無法讀取網頁資料、文件或影像，也就是說還不具備多模態處理的能力，因此目前無法提供 2023 年 10 月之後的事情。

與 GPT-4o 相比，o1-preview 在回答問題的時候，會有一段跑馬燈，顯示其正在思考的步驟。同時，o1-preview 所產生的答案，也更貼近人類的語法與文字格式。也正是因為多加了這個思考的步驟，因此 o1-preview 的答案更像是在其內部將看到的各種不同資料相互辯證，因此更加準確。

對 AI 研究人員來說，破解推理的能力，是 AI 邁向類人類級智慧的重要一步。若一個 LLM 能夠超越模式識別的層次，將有可能在醫學或工程學方面帶來新突破。可惜的是 o1-preview 目前需要更多的思考時間，對開發者來說，成本也過於高昂。

吃草莓了！ChatGPT 發表 o1-Preview 多步驟思考可解決複雜邏輯問題

o1 是如何練成的

相關

previous微軟8月安全更新修補79項漏洞，包括3個已被攻擊的Windows漏洞

next避免CrowdStrike事件惡夢重現　微軟將重新規範EDR產品如何安全存取Windows核心

發表迴響取消回覆

相關

o1 是如何練成的

相關

previous微軟8月安全更新修補79項漏洞，包括3個已被攻擊的Windows漏洞

next避免CrowdStrike事件惡夢重現 微軟將重新規範EDR產品如何安全存取Windows核心

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

next避免CrowdStrike事件惡夢重現　微軟將重新規範EDR產品如何安全存取Windows核心

探索更多來自網路資訊雜誌的內容