不久前才和 Google Brain 合併成一個 AI 事業群的 DeepMind,本周分享該公司最新視覺語言模型 (VLM),可用於為 Youtube Shorts 短影片產生敘述文字,以提供搜尋曝光機會。
DeepMind 指出,Shorts 多半在幾分鐘內製作好,通常沒有敘述文字,標題也不好,無法有效讓用戶搜尋到。 Flamingo 則可分析影片起初的影格,解釋影像畫面內容,再產生一段敘述文字。 DeepMind 舉例:「頭上頂著一疊餅乾的小狗」。這段文字會存成影片的 metadata,使影片分類得更好,也更能為搜尋引擎搜出給想要的用戶。
這的確解決了很大的問題。 DeepMind 業務長 Colin Murdoch 指出,Shorts 影片是短影片格式,創作起來也比長影片快速,因此創作者往往不太會加 metadata 。而且 Shorts 影片使用者多半只會很快看過去,不會仔細閱讀,因此創作者也不太有動機加入 metadata 。
Youtube Shorts 主管表示 Flamingo 模型對一直希望加入 metadata 的他們來說效益很大,讓系統可以更快理解影片內容,並且為使用者提供他們想找的影片。 Flamingo 產生的文字並非給使用者看的。這些 metadata 不會顯示給創作者,但是卻能大幅提升搜尋精確性。同時 Google 也會確保 Flamingo 所產生的文字符合其責任標準,不會出現文字負面呈現影片內容的情形。
希望 Google 的 AI 有進步,減少標示錯誤的問題。 8 年前 Google Photos 曾將 2 個非裔人士標註為黑猩猩,因此 Google Photos 這服務迄今不再會標註任何東西為「猴子」以免出亂子。 Flamingo 若出現重大標示錯誤可能會傷害創作者,讓 Google 成為眾矢之的。
DeepMind 表示,Flamingo 現在已經用於 Youtube Shorts 新上傳的影片了,之後會推向現有影片,包括點閱率最高的影片。
至於 Flamingo 之後會不會用於更長的 Youtube 影片,DeepMind 表示,技術上是可行,但實際需求可能不高,因為較長影片的創作者往往也會花心思在前製、攝影、剪輯,加入 metadata 更是一小環節工作。而網友也會依據影片標題、縮圖及其他資訊來選擇影片,創作者會更有動力提升搜尋可見度。不過一旦 Flamingo 用於 Youtube 長影片,對創作者仍然很有助益。
來源:The Verge
