Google 上星期公布 Bard 最新生成式 AI 模型 Gemini 令人驚豔,但後來 Google 承認,一個展現 Gemini 多模理解對對話能力的影片,其實是後製編輯的結果。
彭博 (Bloomberg) 指稱,Google 上周公佈的 影片,未老實說明真實製作過程,誤導大眾對 Gemini 能耐的認知。這 6 分鐘的影片展示 Gemini 多模態(例如接收口語提示、影像辨識等)能力,它可以連結所有的線索而推論出答案(例如從線條推測出畫的是鴨子)在幾秒內回答,或是追蹤哪個倒過來的杯子下藏有紙團,或是正確判斷太陽、地球及土星的排列順序。這些對人來說是很平常的是,但若是由 AI 所為,就是非常令人震撼的表演。
Google 在這段影片下有說道,為了示範更簡明之故,本影片延遲性經過縮減,Gemini 的輸出也濃縮了。
彭博專欄作家 Parmy Olson 報導,在被問及 Gemini 是否真的是和人類產生即時對話,Google 承認,這影片是利用原始影片的靜態影格製作,並寫出文字提示讓 Gemini 回應。這就和 Google 試圖營造 Gemini 和人類看著影片,理解內容,並和人類對答如流的印象不同。
其實為了行銷宣傳,編輯示範影片以去除不順或平淡的過程無可厚非,是 Google 做得太過火了。還記得 2018 年 Google 公佈的 AI 語音助理 Duplex 打電話預約美髮沙龍的聲音嗎?也有人懷疑是不是假的,因為完全沒有環境噪音,而且接聽的人服務口氣也太好了。當然,Google 也不是唯一一個在 AI 影片上下其手的;百度也承認今年三月發表 AI 聊天機器「文心一言」,為了效果和穩定性,其問答是提前錄製好的影片,結果讓公司股價一度下跌 10% 。
但 Google 拒絕承認這影片是造假。 Google DeepMind 副總裁 Oriol Vinyals 指出,影片中的所有用戶提示和輸出都是真的,只是為了效果經過濃縮,並說這影片說明 Gemini 可帶來何種多模態用戶體驗,該公司想要激發開發人員的靈感。此外,Google 團隊真的提供 Gemini 圖片和文字提示,要它預測接下來是什麼。
或許 Google 並非有意說謊,也或許 Gemini 反應都是真的,但是被抓到編修影片,反而更突顯它和 OpenAI 之間的距離。想要激發開發人員的靈感,不應該是靠精心編輯的影片,應該讓媒體和開發人員在封閉測試中實際操作,讓他們用 Gemini 做異想天開的實驗,更能展現出 Gemini 有多強。
來源:The Verge
