今年 Googel I/O 大會有非常多新聞,涵括 Android 、 Chrome 、 Google Search 及 Gemini 最夯的 AI 代理人如 Project Mariner 、 Project Astra 。以下將列出最重要的幾項
本文目錄
頂級付費方案:Gemini Ultra 月費 249.99 美元
Gemini Ultra 方案含括 Google 最頂級的付費 AI 應用及服務,月費高達 249.99 美元,目前僅在美國推出。 Gemini Ultra 包含影片產生模型 Veo 3 、影片編輯應用 Flow 及之後才會推出的強大 AI 工具 Gemini 2.5 Pro Deep Think 模型。 Ultra 將提供用量最大的 NotebookLM 及影片混編後製 App Whisk 。 Ultra 訂閱用戶還能使用 Chrome 版 Gemini 聊天機器人、 Project Mariner 代理人、 Youtube Premium 及跨 Google Drive 、 Google Photos 、 Gmail 的 30TB 網路硬碟。


推理能力大躍進:Gemini 2.5 Pro Deep Think 模式
Deep Think 為 Gemini 2.5 Pro 模型的最進階推理模式,可在回應前考量多個問題,且在多項標竿測試中提升效能。 Googel 沒有提供細部說明,但可能和 OpenAI 的 o1-pro 及下一代的 o3-pro 模型一樣,可針對用戶問題搜尋網路資訊並匯整出最好的回覆。目前 Deep Think 透過 Gemini API 提供給信賴的測試人員,Google 說還會再做進一步安全評估才會正式推出。

影音生成技術突破:Veo 3 與 Imagen 4 登場
Google 宣稱 Veo 3 可以產生音效、背景噪音甚至配合影片的對話。 Veo 也較前一代 Veo 2 改良畫質。 Veo 3 本周已提供給 Gemini Ultra 的訂閱戶。
Google 說 Imagen 4 比前一代更快最高 10 倍。它能產生圖片的精細細節,像是織物紋理、水波紋或動物毛髮。它也能處理相片和抽象風格,生成各種長寬比、畫質最高 2K 的圖片。 Veo 3 及 Image 4 包含在影片生成工具 Flow 中。
月活躍用戶破 4 億:Gemini App 重大更新
Google 表示 Gemini App 現今每月經常用性超過 4 億。 Gemini Live 的相機和螢幕共享能力來自 Project Astra,本周將推向 iOS 及 Android 版用戶。
Project Astra 可讓用戶和 Gemini 進行「幾近即時」的對話,並且將手機即時串流影像或畫面分享給 AI 模型。 Gemini Live 將在未來幾周整合到 Google 其他 App 中,像是可提供 Google Maps 即時導航指引、在 Calendar 加入活動,或是以 Google Tasks 加入待辦清單。 Gemini 中的 Dee Research AI 代理人也將升級,讓使用者可上傳自己的 PDF 和圖片。
前端開發新工具:Stitch 程式碼生成平台
Stitch 是最近流行的 vibe coding 產品,可產生 UI 元素和程式,協助用戶設計網頁或手機 App 前端。用戶可以用幾句話、上傳圖片、提供 HTML 和 CSS markup 下提示,它就能依此生成。 Stitch 和時下產品相比可能較簡單了些,但提供大量客製化選擇。此外,Google 還將協助除錯的 AI 代理人 Jules 擴大使用對象。
實驗性 AI 代理人:Project Mariner 與 Astra
Project Mariner 是實驗中的上網 AI 代理人,現在已開放給用戶。新版的 Mariner 可一次同時執行 10 多項任務。例如它能上網訂籃球賽的票、購物,使用者只要跟它聊幾句,它就會幫你上網做完事情。 Project Astra 是多模態低延遲性的 AI 代理人,可執行幾近即時的任務,將整合到 Google Search 、 Gemini AI,或是第三方 App 中。 Google 說正在和三星及眼鏡品牌 Warby Parker 合作開發 Project Astra 智慧眼鏡,後者最快 2025 年後推出。

搜尋體驗革新:AI Mode 對話式搜尋
Google 也部署了 AI mode 。 Al Mode 是實驗中的 Google Search 功能,可讓用戶經由 AI 對話介面詢問眾多小問題組成的複雜問題。本周 AI Mode 在美上線。
AI Mode 將在運動和金融相關的詢問中使用複雜資料,而在服飾相關問題則提供「試穿」選項。 Google 將把前述的多模態通用助理 Project Astra 整合到 AI Mode,並用它來驅動 Search Live 功能。 Search Live 可針對用戶詢問手機攝影機拍攝到的事物,即時搜尋回答。
3D 視訊會議新體驗:Beam 沉浸式通話技術
Beam 原名 Starline,它是結合軟、硬體,包括六相機陣列和自製光場顯示器,讓使用者和遠距的對方有如面對面聊天。由一個 AI 模型將置於不同角度的相機拍攝的影像轉換出來,投放成 3D 影像。
Google Beam 號稱具有僅數毫米差的頭部追蹤能力及 60fps 影像串流,配合 Google Meet 使用時,Beam 可提供 AI 即時口語翻譯功能,能保留原說話丈的音色、語調和表情。
Google 還宣佈 Google Meet 將增加即時口語翻譯功能。

其他重要 AI 功能發布
Google 將 Gemini 整合到 Chrome 成為 AI 上網助理,可幫助用戶快速理解網頁內容,或吩咐 Gemini 做事。
Gemma3 是可在手機、筆電和平板中順暢執行的輕量模型,還能處理影像、圖片、聲音和文字,已在本周二開放預覽。
此外,Google 宣佈 AI Workspace,即在 Gmail 、 Google Docs 和 Google Vids 中加入 AI 功能。例如 Gmail 加入個人化的智慧回覆 (smart reply) 及收信匣清理功能,影片編輯 App Vids 則獲得了內容新增和編輯功能。
Notebook LM 除了原本的 Audio Overview,現在多了 Video Overview,可將複雜的多媒體素材如筆記、影片、圖片或 PDF 檔案,變成圖文兼具精美的簡報影片。 Google 還宣佈 SynthID Detector,它是一個運用 Google SynthID 浮水印技術的驗證入口網站,可用於辨識 AI 生成內容。 Lyria Realtime 模型是實驗音樂生成 App 的底層模型,現在已可由 API 存取。
開發者工具升級:Android Studio AI 整合
最後, Android Studio IDE 整合了 AI 功能,包括 Journeys 。 Journeys 是一個測試用的 Gemini AI 代理人,用戶可以自然語言描述每項 actions 和 assertions,由 Gemini 幫你做完測試。而稍後推出的 Agent Mode 則適合更複雜的開發任務。
而 App Quality Insights 的 crash insights 功能,底層是 Gemini,可分析 App 的原始碼找出 App 崩潰的可能原因,並建議修補方法。
來源:Techcrunch
