在 OpenAI 上演執行長被趕下台又復辟的鬧劇同時,其他 AI 新創公司並未停下腳步。 Stability AI 本周宣佈 Stable Video Diffusion,最新模型是以 Stability AI 現有 Stability Diffusion 文字轉圖片開原模型開發而成,可將現有圖片變成動畫的影片。
Stability Video Diffusion 目前為「研究預覽版」,想使用者必須遵守其規定,包括僅能作為教育創意、設計或其他藝術用途工具,且不得用於真實再現(複製)人或事件。
Stability Video Diffusion 有二個模型,分別為 SVD 及 SVD-XT 。 SVD 可將靜態圖片轉成 14 影格的 576×1024 影片,SVD-XT 使用同一架構,但影格提升為 24 。兩者都能生成 3 到 30 FPS(frames per second)的影片。
SVD 與 SVD-XT 兩者一開始都是由數百萬則影片的資料集訓練,再以數十萬則影片訓練「微調」,來源應該都是公開資料集。很難推測這些來源是否為版權著作,若是,可能會為 Stability 及 Stable Video Diffusion 用戶帶來侵權或倫理困擾。
Stability AI 也清楚點出 Stability Video Diffusion 的限制,例如它們無法生成沒動作或慢速平移的影片,無法以文字控制,無法渲染文字,或是生成人臉的品質不穩定等。
不過 Stability AI 指出,這些模型擴充性很高,且容易用於多種場景,像是生成物體 360 度的影片。
Stability AI 表示該公司還在規劃以 SVD 、 SVD-XT 為基礎發展多種模型,以及一個能以 Web 輸入文字提示的「文字轉影片」工具。最終目標可能是商業化。該公司指出,SVD 應用在「廣告、教育、娛樂等」相當適合。
隨著投資人升高壓力,Stability AI 希望及早發展出穩定獲利模式。雖然該公司年終募得 2500 萬美元,但近來投資人興趣缺缺,已傳出因營收不佳,延遲發薪水或繳交薪資稅,導致 AWS 揚言將禁止 Stability AI 存取其 GPU 執行個體。雪上加霜的是,Stability AI 負責聲音服務,或音樂生成工具要角的副總裁 Newton-Rex,也在本周離職。
來源:Techcrunch
