Gemini 2.5 Computer Use登場！Google讓AI能親自「上網」

Google發表Gemini 2.5 Computer Use，讓AI能在瀏覽器中自主執行任務，展現視覺理解與推理能力，挑戰ChatGPT與Claude等AI代理人技術。

Google 本周預覽最新版 Gemini AI 模型，能利用瀏覽器，讓 AI 代理人幫使用者搜尋網路和上網，全程都不需離開 Gemini 聊天機器人。

參考資料：Introducing the Gemini 2.5 Computer Use model

新版模型為 Gemini 2.5 Computer Use，可使用「視覺理解和推理能力」分析使用者請求，再於瀏覽器環境下獨立執行任務，像是根據食譜將材料加入推車中。

就在本周稍早，OpenAI 舉行了第一屆 Dev Day，推出 ChatGPT 內執行的應用程式，並持續擴充 ChatGPT 的代理人 (Agent) 功能。此外，Anthropic 已在去年率先公佈具有電腦使用能力的 Claude AI 模型。

Google 貼出影片展示 Gemini 使用電腦的能力，但影片是 3 倍速快轉。 Google 表示，Gemini 的電腦使用版本在多項網頁及行動標竿測試中超過競爭者。但和 ChatGPT Agent 及 Anthropic 的電腦使用工具不同，Google 的最新 Gemini 模型只能存取瀏覽器，而非整個電腦。 Google 說，目前 Gemini 還未經過桌機作業系統層控制的最佳化，目前只支援 13 種行為，包括開啟瀏覽器、輸入文字，以及拖拉元素。

Gemini 2.5 Computer Use 現在透過 Google AI Studio 和 Vertex AI 提供給開發人員，但似乎也可在 Browserbase 網站上使用及完成任務，像是打遊戲或瀏覽「Hacker News」以蒐集熱門論戰。

來源：The Verge

Gemini 2.5 Computer Use 登場！Google 讓 AI 能親自「上網」

相關

previousAMD、OpenAI簽定5年AI資料中心合作，5年內將供應6 gigawatts算力

nextOracle E-Business Suite 2個月前遭駭客發動零時差攻擊企業邊界告急

發表迴響取消回覆

相關

相關

previousAMD、OpenAI簽定5年AI資料中心合作，5年內將供應6 gigawatts算力

nextOracle E-Business Suite 2個月前遭駭客發動零時差攻擊 企業邊界告急

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

nextOracle E-Business Suite 2個月前遭駭客發動零時差攻擊企業邊界告急

探索更多來自網路資訊雜誌的內容