在全球網路大斷線之災後,Google 正式發表新一代大型模型家族「Gemini 3」,並同場公開強化推理能力的「Gemini 3 Deep Think」模式。這一代不只更新模型參數,而是直接牽動搜尋、 Gemini App 與開發工具的一次大改版。官方用「A new era of intelligence」形容,並強調這是首次在模型發布當天,就同步導入 Google 搜尋 AI Mode 等主力產品。
Google 與 Alphabet 執行長 Sundar Pichai 在官方部落格中提到,目前每月使用 AI Overviews 的用戶已達 20 億,Gemini App 月活躍用戶超過 6.5 億,超過 70%的雲端客戶導入 AI 服務,並有約 1,300 萬個開發者使用 Google 的生成式模型。 Gemini 3 的推出,就是要在這個既有規模上,直接替換核心 AI 引擎。
本文目錄
一次上線多個產品:從搜尋到 Antigravity
與過去 Gemini 1 與 2 分階段開放不同,Gemini 3 選擇「一次鋪滿」的策略。根據 Google 與開發者官方說法,針對一般使用者,在美國地區,Google AI Pro 與 Ultra 訂閱者已可在搜尋的 AI Mode 中,於模型下拉選單選擇「Thinking」,直接使用 Gemini 3 Pro 。此外,Gemini App(行動與網頁版)也更新為以 Gemini 3 為核心,並導入新一代視覺版面與動態檢視等互動介面。
對於開發者與企業端,Gemini 3 Pro 預覽版已在 Google AI Studio 、 Vertex AI 、 Gemini CLI 提供,並成為新開發平台「Google Antigravity」的預設模型之一。 Antigravity 本身是一套「代理優先」IDE,整合編輯器、終端機與內建瀏覽器,讓模型能在同一個工作空間裡規劃任務、撰寫與執行程式碼,並驗證結果。公測階段在 Windows 、 macOS 與 Linux 均可下載,工具本身免費,但 Gemini 3 用量會依訂閱方案計費。
Google 這次等於把最新模型直接植入搜尋、助手 App 與開發環境,而不是先當成「雲端 API 選項」,再慢慢擴散,這點與過去幾代明顯不同。
兩種模式:Gemini 3 Pro 與 Deep Think
Gemini 3 家族目前分成兩種思考檔位,各自扮演不同角色。主力版本是 Gemini 3 Pro,Google 直言它是「目前最聰明、也是最強的 vibe coding 與 agentic coding 模型」,專攻日常問答、程式協作、影音與文件理解等大多數使用者最常遇到的情境,也是 Google 產品線裡的預設模型。
另一邊,Gemini 3 Deep Think 則像是把大腦切換到高扭力模式。官方把它定位成「增強推理」版本,在高難度基準測試上與 Pro 明顯拉開差距。目前僅限安全測試者與 Google AI Ultra 訂閱者提前體驗,Google 表示會等額外安全評估完成後才逐步開放更多使用者。
整體來看,Gemini 3 的雙模式更像在同一顆引擎上切換不同的「思考段位」。透過後端的「thinking level」與「thinking budget」參數,開發者可以自由調節成本與深度:要速度,就選輕巧檔位;要推理,就開啟深度模式,讓模型把計算力真正用在思考上。
基準測試:從 Humanity’s Last Exam 到 ARC-AGI-2
在官方與第三方公布的數據中,Gemini 3 Pro 在多項頂尖基準測試上取得領先。以下是幾個值得注意的指標:
- 人類最後考驗(Humanity’s Last Exam,HLE)
- Gemini 3 Pro:37.5%(無工具)
- Gemini 2.5 Pro:21.6%
- GPT-5.1:26.5%
- Deep Think:41.0%(無工具)HLE 是由 Center for AI Safety 與 Scale AI 共同設計的新型前沿基準,用 3000 題高難度多領域題目評估模型的推理與知識。
- GPQA Diamond(高階科學問答)
- Gemini 3 Pro:91.9%
- Deep Think:93.8%這個基準主要看模型在研究級科學問題上的表現。
- ARC-AGI-2(ARC Prize Verified 視覺推理難題)
- Gemini 3 Pro:31.1%
- Gemini 2.5 Pro:4.9%
- GPT-5.1:17.6%
- Deep Think:45.1%(具程式碼執行能力)
- MathArena Apex(高難度數學推理)
- Gemini 3 Pro:23.4%
- Gemini 2.5 Pro:0.5%
- GPT-5.1:1.0%
- Claude Sonnet 4.5:1.6%
- LMArena 文字推理排行榜
- Gemini 3 Pro Elo:1501,成為第一個突破 1500 分的模型。
此外,官方還強調了多模態與工具使用相關的數據,例如:MMMU-Pro 81.0%、 Video-MMMU 87.6%、 ScreenSpot-Pro 72.7%、 Terminal-Bench 2.0 54.2%、 SimpleQA Verified 72.1%等,試圖證明它不是單純在文字題目上追分,而是在視覺理解、終端操作與事實正確性都往前推了一步。
整體來看,若以目前公開基準來衡量,Google 確實在這一輪把分數拉回「領先或並列領先」的位置,尤其是在 ARC-AGI-2 與 MathArena 等偏推理與視覺難題上,差距相對明顯。
生成式介面:從一行搜尋變成互動工具
外界看到 Gemini 3 時的第一反應,多半還是「又來一個更強的聊天 AI」。但 Google 這次真正想端出的主菜,其實是「Generative UI」──一種讓搜尋結果會自己「長出介面」的使用方式。
在搜尋的 AI Mode 裡,Gemini 3 不再只丟出一段乾淨的文字摘要,而是會根據你的需求即時生成互動工具與視覺化版面。
像是你查房貸時,畫面會直接生出一個互動式貸款計算器,滑桿調利率、年限,方案比較立即呈現;想理解「三體問題」,它不再只給兩三行公式,而是直接丟給你一個可操作的模擬器,讓你拖拉參數看運動軌跡如何變化。
這套生成式介面也同步進入 Gemini App 。根據媒體實測,Google 目前正在測試兩種更具「雜誌感」與「互動感」的新介面:
- 「視覺版面」模式:當你要求規劃旅遊行程時,App 會自動排出一個像數位雜誌的頁面:圖片、行程區塊、可調整天數與預算的滑桿一次到位,彷彿是現做的旅遊特刊。
- 「動態檢視」模式:例如詢問梵谷作品時,螢幕會產生可點選、可滑動的互動視窗,用圖像搭配文字帶你探索每件作品,而不是傳統的純文字清單。
更關鍵的是,這些介面並不是事先寫死的 UI 模板,而是 Gemini 3 根據語意需求「當場產生」的結果。它會自己寫程式碼、呼叫工具、組合介面元件,Google 將這種概念稱為「自然語言即介面」:你只需要說出需求,至於該生成什麼 UI 、該用什麼工具,全部交給模型自行決定。
對 Google 而言,這意味著 AI 不再只是回答問題,而是能在你的螢幕上「動手做出」解決方案。
Gemini Agent 與 Antigravity:AI 代理人的實驗場
為了讓 AI 不只停留在「回答問題」,而是真正「幫你把事做完」,Google 在這次更新中端出了兩個重量級新品:Gemini Agent 與 Google Antigravity,分別針對一般使用者與開發者所設計,正式把「AI 代理人」拉進日常生活與工作流程。
首先是給一般使用者與知識工作者的 Gemini Agent 。這個功能目前優先提供給 Google AI Ultra 訂閱者,直接嵌入在 Gemini App 中。它能連結你的 Google 服務,協助整理 Gmail 信箱、管理行事曆、設定提醒、規劃待辦清單,甚至可以幫你完成橫跨多重步驟的網路預訂流程。更重要的是,在執行任何可能影響帳戶或資料的重要操作前,介面都會跳出確認,強調「保持人員介入」-Google 顯然不想讓 AI 在沒有監督的情況下替你按下太多關鍵按鈕。
至於給開發者的,是 Google 打造的「代理優先 IDE」:Google Antigravity 。它將編輯器、終端機與瀏覽器整合在同一個工作空間裡,讓 AI 代理人不只是告訴你該寫哪段程式,而是可以親手在 IDE 內規劃、撰寫、執行、驗證整個流程。 Antigravity 預設使用 Gemini 3 Pro,也同時支援 Claude Sonnet 4.5 與 OpenAI 的 GPT-OSS 模型,定位很明確-要成為多模型的「任務控制台」。工具本身在公測階段免費下載,但使用 Gemini 3 等模型仍會依 API 或訂閱方案計價。
結合前面提到的 Terminal-Bench 2.0 與 SWE-Bench Verified 性能測試,可以明顯看出 Google 的方向:他們不是要做一個更會寫程式碼的聊天模型,而是要把 Gemini 變成能長期操作工具與終端機、真正能陪你一起工作的「AI 開發夥伴」。这一波更新,正是 Google 全面押注「代理型 AI」的開始。
