OpenAI 12連發最後驚奇：公布o3與o3-mini模型，能力比o1模型強三倍

OpenAI 宣佈最新推理模型 o3 和 o3-mini，以模擬推理技術創下多項測試紀錄。o3 在視覺與數學等標竿測試中表現超群，成為 AI 領域重要里程碑，預計2025年正式推出。

最好的留在最後，在聖誕消息 12 連發的最後一天，OpenAI 執行長 Sam Altman 宣佈最新具推理能力的 AI 模型最新版 OpenAI o3 、 o3 mini 。

o3 系列是今年九月推出的 o1 的升級版。目前 o3 處於安全測試階段，僅供第三方安全研究登記測試以及 OpenAI 和專家團隊進行紅隊演練測試。

OpenAI 表示，o3 模型使用「私有思維鏈 (private chain of thought)」，模型在回應用戶前會先停下來檢視內部對話，再好好計畫如何回應，也可以稱為「模擬推理」(simulated reasoning, SR)，是一種超越基本 LLM 能力的 AI 模型。

據《Information》報導，新模型不叫 o2 是為了避免和英國電信業者 O2 鬧雙胞。 Altman 上周也坦承，因為 OpenAI 向來對品牌命名不太擅長，因而要叫 o3 。

OpenAI 指出，o3 在 2019 年以來未曾被擊敗的視覺推理標竿測試 ARC-AGI 中，締造了破紀錄成績。在低運算任務中，o3 獲得 75.7%，而在高運算任務則獲得 87.5% 的高分。如果到 85% 就等同人類的能力。

OpenAI 還指出，在 2024 年美國數學邀請測驗賽中，o3 得分 96.7%，僅僅錯一題。此外，它在 GPQA Diamond 測試中拿了 87.7%，這項測試包含生物、物理和化學題。最後，在 EpochAI 的尖端數學 (Frontier Math) 標竿測試中，o3 解決了 25.2%，其他模型都沒能超越 2% 。

ARC 獎項基金會主席說，看到測驗結果，使他自覺需要改變對 AI 和 AI 能力的看法。

OpenAI 上周也公佈了 o3-mini 模型，它是由 o3 蒸餾縮減而成．具備適應性思考時間功能，提供低、中、高運算速度，設定的運算量愈高，測試成績愈好。 OpenAI o3-mini 的 Codeforces 標竿測試成績比 o1 還好。

模擬推理為新興技術

OpenAI o3 也加入了其他開發自有 SR 模型的廠商行列。 Google 上周宣佈了 Gemini 2.0 Flash Thinking Experimental 實驗模型。 11 月，DeepSeek 推出了 DeepSeek-R1，阿里巴巴的通義千問 (Qwen) 團隊則預覽了 QwQ 。

這些新 AI 模型是以傳統 LLM 為基礎開發，但更為創新：它們經過微調後能產生一連串反覆思考的過程，因而能自己思考結果與模擬推理，推論時以近乎暴力方式擴充，而不需在模型訓練時自我改進。

OpenAI 讓 o3 系列通過安全測試後，預計 2025 年一月底先推出 o3-mini，再推出 o3 模型。

來源：Ars Technica

OpenAI 12 連發最後驚奇：公布 o3 與 o3-mini 模型，能力比 o1 模型強三倍

模擬推理為新興技術

相關

previousOpenAI 12連發第11天：ChatGPT桌面端應用整合更多第三方程式，包括Notion與Quip

nextOpenAI 12連發的驚奇彩蛋：聖誕假期，ChatGPT Plus用戶玩Sora吃到飽

發表迴響取消回覆

相關

模擬推理為新興技術

相關

previousOpenAI 12連發第11天：ChatGPT桌面端應用整合更多第三方程式，包括Notion與Quip

nextOpenAI 12連發的驚奇彩蛋：聖誕假期，ChatGPT Plus用戶玩Sora吃到飽

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

探索更多來自網路資訊雜誌的內容