OpenAI 再度祭出重武器 文字轉影片工具 Sora 驚艷全世界 可輸出 4K 影片
OpenAI 上周宣佈影片生成 AI 模型 Sora,讓用戶可輸入文字,獲得一分鐘以內的高品質影片。
文字轉影片無疑是 AI 當今主流,OpenAI 之前,Meta、Google 及 Runway AI 等業者已推出類似服務。但影片畫質是這些服務的共同挑戰:雖然有些服務的輸出品質還不錯,但距離真實影片還有一段不小的距離。
Sora 是一擴散模型,是在資料轉成圖片或影片過程中,根據習得的資料分佈,把隨機噪音 (noise) 漸次提升品質。Sora 可以生成具有多種角色、特定動作,以及精確主題或背景細節的複雜場景。它不僅能了解使用者提示,也能理解實體世界中事物運行原理。
Sora 對語言的理解使其得以精確解釋用戶的提示,並產出情感鮮明角色,而且能在單一影片中創造多個場景,人物面貌及視覺風格都能精準描繪。
但 OpenAI 說明 Sora 還是有缺,例如它在複雜場景中無法精準模擬真實運行,因果關係描述也有,例如人物咬了一口餅乾,但餅乾卻沒有缺口。它也會搞錯一些空間細節,例如左、右不分,連續事件細節呈現也有問題,像是無法跟隨特定鏡頭運鏡。
根據 OpenAI 貼出的展示影片,雖然尚不完美,但第一版卻令人驚豔。
不過 ChatGPT 用戶想要用得再等一等。OpenAI 目前對 Sora 進行紅隊演練,以測試用戶提示對模型造成的傷害或風險。OpenAI 也已讓部份視覺特效、設計師和製片師試用 Sora 以獲取專業人士意見。在此之後,OpenAI 才會規劃讓一般用戶一睹 Sora 的能耐。