為了回應 Google 近期推出的模型 Gemini 3,OpenAI 於 2025/12/11 發表了最新的人工智慧模型:GPT-5.2 。這是繼 11 月發布 GPT-5.1 後,OpenAI 在短時間內進行的重大更新,被視為執行長 Sam Altman 發布「紅色警戒 (Code Red)」後的回應。
GPT-5.2 並非單一模型,而是推出了三個針對不同需求優化的版本:Instant(即時)、 Thinking(思考)與 Pro(專業)。新模型在程式碼編寫(特別是前端與使用者介面)、長脈絡理解以及代理 (Agentic) 能力上有顯著提升。
本文目錄
主要功能與更新
- 三種版本,分工明確:OpenAI 此次採取分眾策略,將 GPT-5.2 細分為三個版本以應對不同場景的成本與效能需求。其中,「GPT-5.2 Instant」定位為輕量級與低延遲模型,專注於快速資訊檢索、簡單寫作與摘要任務,適合日常對話與即時查詢;「GPT-5.2 Thinking」則強化了「思維鏈 (Chain of Thought)」能力,專攻複雜的 STEM(科學、技術、工程、數學)問題、程式開發及多步驟專案規劃,在邏輯推理表現最為優異;而旗艦級的「GPT-5.2 Pro」則平衡了推理深度與廣度,能處理跨檔案分析等高難度任務,例如同時分析多份長文件並生成報表。
- 「代理 (Agentic)」能力的提升:新模型顯著的進步之一在於其「代理」能力,意味著 AI 從被動回答問題轉向主動使用工具完成任務。 GPT-5.2 能夠自主建立試算表 (Spreadsheets) 或製作簡報 (Presentations),實現辦公自動化。其端到端的執行能力使其能處理跨越多個步驟的複雜專案,大幅降低了人類介入微調的需求。
- 程式開發與前端工程的突破:在程式開發領域,GPT-5.2 Thinking 版本表現亮眼,根據 OpenAI 技術報告,它在軟體工程基準測試 SWE-Bench Pro 上創下了 55.6% 的紀錄 (SOTA) 。該模型特別解決了過往視覺化程式碼生成的痛點,強化了前端開發與複雜使用者介面 (UI) 設計(包含 3D 元素)的能力;同時,它在大型程式碼庫 (Codebase) 的除錯與重構任務上也展現了更高的可靠度。
- 長脈絡與科學研究:針對專業與學術領域,GPT-5.2 展現了長脈絡理解與科研輔助能力。它在 OpenAI MRCRv2 測試中取得領先,能精準整合分散在數百頁報告或合約中的資訊,極適合律師與研究員使用。此外,在研究生等級的問答基準 GPQA Diamond 中,GPT-5.2 Pro 獲得了 93.2% 的高分,顯示其作為學術研究輔助工具的潛力。
競爭態勢:OpenAI vs. Google
此次更新的背景競爭激烈。僅在一個月前(2025 年 11 月),OpenAI 才剛發布 GPT-5.1,隨後 Google 便推出了 Gemini 3,在多項基準測試中超越了 GPT-5.1,導致 OpenAI 內部進入緊急狀態。
| 測試項目 | GPT-5.2 (Thinking/Pro) | Google Gemini 3 | Claude Opus 4.5 | 意義 |
|---|---|---|---|---|
| GPQA Diamond (科學問答) | 93.2% (Pro) | 93.8% (Deep Think) | 待更新 | 在研究所等級的科學難題上,雙方幾乎平手,顯示 OpenAI 已追平 Google 的優勢。 |
| ARC-AGI-2 (抽象推理) | 52.9% | 45.1% | 37.6% | 關鍵勝出!這被視為測試 AI 是否具備「通用智慧」的重要指標,GPT-5.2 大幅領先。 |
| SWE-bench Verified (軟體工程) | 80.0% | 待更新 | 80.9% | 在寫程式方面,GPT-5.2 雖有顯著進步,但目前數據仍微幅落後於 Anthropic 的 Claude Opus。 |
雖然目前尚未有全面的第三方評測報告,但 OpenAI 宣稱 GPT-5.2 Thinking 在名為 GDPval(模擬 44 種職業知識工作的內部評測)中,有 70.9% 的任務表現優於或持平人類專家,前代 GPT-5.1 僅有 38.8% 。這顯示了新模型在「替代/輔助人類專業工作」上的改進。
市場影響與開發者生態
在市場影響與開發者生態方面,OpenAI 隨著 GPT-5.2 的發布同步更新了 API,為開發者帶來顯著利多。對於依賴 AI 進行自動化決策的企業而言,新模型降低了 30% 的錯誤率,這一點相當重要。而在價格策略上,GPT-5.2 的 API 定價據傳與 Gemini 3 相當接近(每百萬輸入 tokens 約 1.75 美元),這顯示 OpenAI 有意透過具競爭力的價格戰來維持開發者生態系的黏著度。
此外,開發者社群也迅速發現了新模型的整合應用,熱門的程式碼編輯器 Cursor 已在選單中新增 gpt-5.2 與 gpt-5.2-thinking 的選項。根據早期的測試者回饋,新模型在理解「整個程式碼庫 (Repo)」架構以及進行多檔案修改的能力上,均有顯著的提升,進一步強化了其在開發環境中的實用性。
