Gemini 2.5 Computer Use 登場!Google 讓 AI 能親自「上網」

Google發表Gemini 2.5 Computer Use,讓AI能在瀏覽器中自主執行任務,展現視覺理解與推理能力,挑戰ChatGPT與Claude等AI代理人技術。

Google 本周預覽最新版 Gemini AI 模型,能利用瀏覽器,讓 AI 代理人幫使用者搜尋網路和上網,全程都不需離開 Gemini 聊天機器人。

參考資料:Introducing the Gemini 2.5 Computer Use model

新版模型為 Gemini 2.5 Computer Use,可使用「視覺理解和推理能力」分析使用者請求,再於瀏覽器環境下獨立執行任務,像是根據食譜將材料加入推車中。

就在本周稍早,OpenAI 舉行了第一屆 Dev Day,推出 ChatGPT 內執行的應用程式,並持續擴充 ChatGPT 的代理人 (Agent) 功能。此外,Anthropic 已在去年率先公佈具有電腦使用能力的 Claude AI 模型。

Google 貼出影片展示 Gemini 使用電腦的能力,但影片是 3 倍速快轉。 Google 表示,Gemini 的電腦使用版本在多項網頁及行動標竿測試中超過競爭者。但和 ChatGPT Agent 及 Anthropic 的電腦使用工具不同,Google 的最新 Gemini 模型只能存取瀏覽器,而非整個電腦。 Google 說,目前 Gemini 還未經過桌機作業系統層控制的最佳化,目前只支援 13 種行為,包括開啟瀏覽器、輸入文字,以及拖拉元素。

Gemini 2.5 Computer Use 現在透過 Google AI Studio 和 Vertex AI 提供給開發人員,但似乎也可在 Browserbase 網站上使用及完成任務,像是打遊戲或瀏覽「Hacker News」以蒐集熱門論戰。

來源:The Verge

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link