Google 本周公佈加入推理思考能力的 Gemini 2.5,並推出第一個版本:Gemini 2.5 Pro Experimental 。
Google 稱 Gemini 2.5 Pro 是他們最聰明的模型,而且未來的新成員也都會加入思考能力,可以將任務切成多個步驟一路思考,最後才回應。 Google 表示,這有助於提升效能和準確性。
Google 是在去年的 Gemini 2.0 Flash Thing Experimental 首先推出具思考能力的 AI 模型。這種模型在開發過程中加入強化式學習及思維鏈提示 (chain-of-thoughts prompting) 等技術。 Gemini 2.5 則是沿襲這個路線的最新成果。但是 Google 已不再使用「Thinking」的名稱了,未來所有模型都會加入推理思考的能力。
Gemini 2.5 具備 100 萬個字詞 (token) 的 context window,可允許接收相當大的文件、影音檔案,約等於 150 萬字。 Google 計畫很快再擴充為 200 萬字詞。這可為 AI 代理人提供強大基礎模型,使其理解大量資料集、分析,還能使用工具解決複雜問題。
Gemini 2.5 Pro Experimental 是 Gemini 2.5 的第一個問世版本,已經展現絕佳成績。它在科學測試 GPQA Diamond 得分為 84%,數學測試 AIME 則為 86.7% 。在推理與知識測試中,Gemini 2.5 Pro 拿下 18.8%,的最佳成績,超越 OpenAI o3-mini 、 GPT-4.5 、 Claude 3.7 Sonnet 或 DeepSeek R1 。 Gemini 2.5 Pro Experimental 僅在代理人程式撰寫測試 SWE-Bench Verified 中,得分 63.8%,低於 Anthropic 的 Claude 3.7 Sonnet 。
Google 並以影片展示 Gemini 2.5 Pro 只需一個提示,就能利用 HTML 、 CSS 和 JavaScript 撰寫出一個恐龍電玩遊戲。
目前 Gemini 2.5 Pro Experimental 在 Google AI Studio 上線開放給企業,以及提供給付費的 Gemini Advanced 用戶,桌機和手機都可使用。未來幾個星期 Gemini 2.5 Pro 也會在 Google 機器學習平台 Vertex AI 開放試用。
TxGemma:適用藥物開發的 AI 模型
除了 Gemini 2.5 Pro,Google 也宣佈 TxGemma 家族,這是一個醫藥和療法開發的開放 AI 模型。它是以輕量級的開原碼 Gemma 2 模型為基礎,運用 700 萬筆訓練資料,可理解和預測藥物與基因療法的屬性,包括辨識具潛力的藥物,預測臨床測試結果。
TxGemma 有三種規模,包括 20 億 (2B) 、 90 億 (9B) 及 270 億 (27B) 參數版本。每種尺寸都有適用於較「窄範圍」任務的「預測版」。適用的任務包括分類藥物、預測藥物的受體結合 (binding) 能力或根據反應生成其他藥物。
較大的 9B 及 27B 模型還有「聊天」(chat) 版,能解釋推理、回答問題、和使用者交談。因此研究人員可以問 TxGemma-Chat 模型為什麼它預測特定分子可能有毒性,請它提供分子結構。
TxGemma 現在已在 Vertex AI Model Garden 平台及 Hugging Face 平台上線。
