Google 本周預覽最新版 Gemini AI 模型,能利用瀏覽器,讓 AI 代理人幫使用者搜尋網路和上網,全程都不需離開 Gemini 聊天機器人。
參考資料:Introducing the Gemini 2.5 Computer Use model
新版模型為 Gemini 2.5 Computer Use,可使用「視覺理解和推理能力」分析使用者請求,再於瀏覽器環境下獨立執行任務,像是根據食譜將材料加入推車中。
就在本周稍早,OpenAI 舉行了第一屆 Dev Day,推出 ChatGPT 內執行的應用程式,並持續擴充 ChatGPT 的代理人 (Agent) 功能。此外,Anthropic 已在去年率先公佈具有電腦使用能力的 Claude AI 模型。
Google 貼出影片展示 Gemini 使用電腦的能力,但影片是 3 倍速快轉。 Google 表示,Gemini 的電腦使用版本在多項網頁及行動標竿測試中超過競爭者。但和 ChatGPT Agent 及 Anthropic 的電腦使用工具不同,Google 的最新 Gemini 模型只能存取瀏覽器,而非整個電腦。 Google 說,目前 Gemini 還未經過桌機作業系統層控制的最佳化,目前只支援 13 種行為,包括開啟瀏覽器、輸入文字,以及拖拉元素。
Gemini 2.5 Computer Use 現在透過 Google AI Studio 和 Vertex AI 提供給開發人員,但似乎也可在 Browserbase 網站上使用及完成任務,像是打遊戲或瀏覽「Hacker News」以蒐集熱門論戰。
來源:The Verge
