OpenAI 發表最強推理模型 o3，效能碾壓 Claude 3.7，GPT-5 前哨戰開打

OpenAI 推出 O3 與 O4-mini 模型，強化多步驟推理與多模態能力，展現頂尖效能與高性價比，搶攻生成式 AI 市場先機。

剛發表完 GPT-4.1，OpenAI 正式宣布推出 OpenAI o3 與 o4-mini 新模型，且現在可以在 ChatGPT 上開放給 Plus 、 Pro 與 Team 用戶選擇使用。

根據 OpenAI 官方網站表示，這兩款模型是 OpenAI 至今最聰明的模型，專為處理複雜的科學、數學、程式設計與視覺推理任務所設計。相較於先前的 o1 系列，o3 與 o4-mini 能使用並整合 ChatGPT 的所有工具，包括網路搜尋、 Python 程式執行、圖像分析、檔案解析與圖像產生，實現了更接近「代理型 AI (agentic AI)」的功能。

這次同步發表兩款不同的模型，看得出 OpenAI 的產品策略：旗艦款滿足頂尖效能，經濟款則展現出高 CP 值。 o3 作為旗艦模型，在多領域表現優異，特別是在程式設計、數學與科學任務中樹立了新標竿。 o4-mini 則以高效能與低成本為特色，根據 OpenAI 宣稱，搭配 Python 直譯器時，在 2025 年 AIME 數學任務中達到 92.7% 的準確率，同時具備更低的延遲與運算成本。

ChatGPT Plus 、 Pro 與 Team 用戶即日起可在模型選擇器中存取 o3 、 o4-mini 及 o4-mini-high，取代先前的 o1 、 o3-mini 與 o3-mini-high 模型。企業與教育用戶則將於一週後獲得存取權限。開發者亦可透過 OpenAI 提供的 API 介面呼叫這些模型，在自己的應用中部署相關功能。

OpenAI 執行長 Sam Altman 曾在今年 2 月暗示公司不準備在 ChatGPT 上單獨推出 o3，而是將其技術直接融入下一代的綜合模型中。不過，來自競爭對手的壓力使得 OpenAI 最終改變策略，決定「改變計劃，幾週內推出 O3 和 O4-mini，GPT-5 則延後數月推出。」事實上，OpenAI 剛宣布延後推出原定於春季推出的 GPT-5，並預計於數月後上線。

GPT-5 預計將把傳統的大型語言模型如 GPT-4.1，與推理模型合而為一，因此剛亮相的 o3 與 o4-mini 模型，可以視為在 GPT-5 問世前，最後一批獨立的推理模型。

深入解析 o3 與 o4-mini 模型

o3 和 o4-mini 在技術架構與能力上帶來多項創新突破。首先，o3 展現了前所未有的強大效能。根據 OpenAI 公布的測試數據，o3 在多項評估中刷新紀錄：例如在寫程式能力評測 SWE-Bench（不使用額外輔助）的測試中，o3 獲得 69.1% 的高分，遠勝前代的 o3-mini（49.3%），也超越了主要競爭對手 Anthropic 公司最新模型 Claude 3.7 Sonnet 的 62.3% 。

o4-mini 的表現亦相當出色，SWE-Bench 得分達 68.1%，幾乎逼近 o3 的表現，顯示出 OpenAI 成功在較小模型上實現接近旗艦模型的推理水準。

另一方面，官方與外部專家測試顯示 o3 在處理困難、真實世界任務時比 OpenAI 前一代推理模型 o1 大幅減少了約 20% 的重大錯誤。早期內部測試者稱讚 o3 作為「思考夥伴」時展現出高度嚴謹的分析能力，能夠產生並批判性地評估新興假設，在生物、數學和工程等領域的難題中提供創意解決方案。

同時，兩款新模型在遵循使用者指令方面有明顯改進，回答內容更有條理且附帶可驗證的資訊來源，對話風格也更為自然流暢；模型能參考對話歷史記憶來調整回應，使互動更加個人化。值得一提的是，相較以往僅直接給出結論的傳統模型，OpenAI 的推理系列會展示自身的推理過程，讓使用者可以窺見模型是如何逐步推導出答案，這種透明度在提升可信度的同時，也方便開發者診斷模型思考中的謬誤。

多模態融入推理思考鏈

更重要的是，o3 和 o4-mini 為 AI 賦予了前所未有的多模態推理與工具運用能力。總體來說，這兩款模型的主要技術亮點包括：

多模態鏈式推理： o3/o4-mini 是 OpenAI 第一個能夠「帶著圖像一起思考」的模型，將視覺訊息直接融入 AI 的思考鏈，使用者可以上傳白板照片、手繪稿或文件圖表等圖片作為提示詞的一部分，模型會在產生答案前將圖像納入思考過程並加以分析。即使面對模糊或品質較差的圖片也會試著理解內容，並視需要旋轉或放大圖片來擷取關鍵資訊。這種將視覺結合文字進行推理的能力，讓 o3/o4-mini 模型在多模態基準測試中創下極佳表現。
自主使用外部工具：與先前依賴提示詞語輸出/輸入資料的模型不同，o3/o4-mini 模型能夠自動呼叫多種外部工具來產生回應。在 ChatGPT 服務中，這兩款模型可使用內建的網路瀏覽、 Python 程式碼執行、圖像處理產生等工具；透過 API，開發者也可以透過 function calling 對接自己開發的工具。新款模型經強化學習訓練，學會了何時以及如何選擇恰當的工具來解題，例如若使用者詢問「今年夏天加州的能源使用量將如何變化？」，模型可以自動上網搜尋公開的電力數據，再撰寫 Python 程式預測未來用電並繪製圖表，最後給出包含圖像和關鍵因素說明的完整答案，完成回答需時不到一分鐘。推理期間，o3/o4-mini 模型會視需要多次搜索、跑程式並動態調整步驟，幫助模型能夠處理超出訓練語料範圍、需要最新資訊和多步推理的任務。
強化學習提升深度： OpenAI 在訓練 o3 系列模型時大幅應用了強化學習技術，讓模型透過反覆試錯學會「思考更久」。 OpenAI 團隊發現，強化學習的規模化，與先前預訓練階段，呈現類似的「算力提升即性能提升」趨勢。透過延長模型推理過程並提供額外的運算資源，模型的推理能力隨之不斷攀升。實驗顯示，即使運算條件如同 o1 的延遲和成本限制，o3 的效能更優；若允許更長的思考時間，還能進一步提高表現。這證實「讓 AI 想得更久一點」可以換來更聰明的結果，似乎是未來發展更強 AI 的一條明路。
高效能小模型： o4-mini 雖然參數規模較 o3 更小，但經過最佳化之後，在數學、寫程式和視覺任務上展現了驚人的性價比。在某些標準評測如 2024 、 2025 年 AIME 數學競賽題目上表現優異，甚至在非 STEM 類的任務和資料科學領域方面，超越前一代的 o3-mini 。由於架構效能高，o4-mini 容許的使用頻率與同時處理量明顯高於 o3，可滿足企業大量呼叫的需求。換言之，o4-mini 提供了一個高輸出、低延遲的經濟型選擇，開發者可用更低的成本在大規模應用中部署具備推理能力的模型。

市場影響

Gen AI 市場正經歷指數級成長，2025 年估計將從 378.9 億美元成長至 627.2 億美元，複合年成長率非常可觀。過去一年，OpenAI 的主要競爭對手紛紛加碼研發類似的 AI 模型。因此，OpenAI 推出 o3/o4-mini 的舉動，正是為了在全球 AI 軍備競賽中勝過 Google 、 Meta 、 xAI 、 Anthropic 和 DeepSeek 等對手。

事實上，「讓 AI 學會推理」已成為產業趨勢，競爭激烈的結果也反應在市場策略上，例如中國新創公司推出的開原模型 DeepSeek R1，展現出強大性能及免費價格，動搖了美國科技圈並迫使 Google 和 Anthropic 考慮降低商業模型的價格。而歐洲新創公司也不甘示弱，由前 Google DeepMind 和 Meta 工程師創立的法國 AI 新創 Mistral 最近推出了自家的聊天機器人「Le Chat」的升級版，同樣採開原路線。根據該公司表示，Le Chat 的生成速度極快，在一場程式編寫競賽中，展現出幾乎比 Anthropic 的 Claude 快 10 倍、比 OpenAI 的 ChatGPT 快 13 倍的速度。

綜合來看，o3 與 o4-mini 模型在技術和市場兩方面都具有重要意義。一方面帶領 Gen AI 從單純的對答走向多步驟推理、從語言處理轉向多模態與工具協作的新趨勢；另一方面，這兩款新模型可說是 OpenAI 回應開原版模型的答案，打開了 Gen AI 下一階段的趨勢：通用大型模型與專業推理能力的結合，推動整體 Gen AI 市場邁向更高的智力水準、更豐富的應用情境。

ChatGPT 圖像推理示範：模型透過多次放大檢視海面船隻，嘗試辨識右側紅色油輪並推測其下一停靠港。 Source: OpenAI

OpenAI 目前主流模型 API 價格表

模型名稱	每百萬輸入 tokens 價格（美元）	每百萬輸出 tokens 價格（美元）
OpenAI o1	$15	$60
OpenAI o1-mini	未提及	未提及
OpenAI o3	$10	$40
OpenAI o3-mini	$1.10	$4.40
OpenAI o4-mini	$1.10	$4.40
GPT-4o	$2.50	$10
GPT-4o mini	$0.15	$0.60

開發者社群

OpenAI 推出 o3 和 o4-mini 後，許多 AI 開發者對新模型展現的能力感到興奮，不少人第一時間透過 ChatGPT 的付費方案上手體驗其強大的推理和工具運用功能。不少早期使用者回饋指出，o3 在程式原始碼撰寫和數學推導方面，的確比以往模型展現出更縝密的思考路徑，解答過程更加具有邏輯條理，不僅能提出嶄新的假設，還會自行檢驗這些想法的可行性，這種特性使其特別適合作為科學研究與工程領域中人類專家的輔助工具，而不僅是提供答案的黑盒子。

模型效能與使用體驗也是開發者關注的焦點之一。過往採用推理思考鏈的模型往往必須犧牲產出速度，但 OpenAI 強調 o3/o4-mini 在效能最佳化方面有十分亮眼的成果。此外，OpenAI 這次也祭出了具有競爭力的價格策略：考量到 o3 的性能躍升，呼叫 API 價格定為每百萬輸入 tokens 為 10 美元、輸出為 40 美元，可稱得上是物美價廉。 o4-mini 的價格則與前代 o3-mini 相同，維持在每百萬輸入約 1.10 美元、輸出 4.40 美元的低價。

然而，OpenAI 並沒有針對 o3/o4-mini 加入多模態推理能力後，對系統平台的運算壓力做出預測或說明，畢竟先前 GPT-4o 的吉卜力之亂，已經讓執行長 Sam Altman 大喊機房吃不消。因此，大規模推出新款模型之後，OpenAI 必須同步跟進擴充及最佳化伺服器的能力，確保用戶體驗不受影響。

o3 與 o4-mini 模型比較表

比較項目	OpenAI o3	OpenAI o4-mini
主要功能	最強推理模型，擅長寫程式、數學、科學、視覺感知，強大分析能力	更小巧，針對快速且具成本效益的推理進行優化
特定領域基準效能	Codeforces 、 SWE-bench 、 MMMU 創下新高	AIME 2025 得分 92.7%，非 STEM 任務優於 o3-mini
相較於 O1 的錯誤減少	減少 20%	未提及
工具存取	完全自主存取所有 ChatGPT 工具	完全自主存取所有 ChatGPT 工具
指令遵循	較舊版改進	較舊版改進
回應可驗證性	由於智慧提升和網路整合而更佳	由於智慧提升和網路整合而更佳
對話風格	更自然、更具對話性，具備記憶和個人化能力	更自然、更具對話性，具備記憶和個人化能力
視覺推理	是	是
使用上限	較低	較高
輸入價格（每百萬 tokens）	$10	$1.10
輸出價格（每百萬 tokens）	$40	$4.40