Stability AI 發表最新文字轉圖片模型 Stable Diffusion XL 1.0 色彩及光影表現更進階

Stability AI發表Stable Diffusion XL 1.0生成性AI模型,進階且客製化,應對道德困境,進一步強化圖片生成能力。

競爭日益激烈,AI 新創公司 Stability AI 持續強化其生成性 AI 模型。昨日發表 Stable Diffusion XL 1.0 文字轉圖片模型,號稱是該公司迄今最進階的模型。

Stable Diffusion XL 1.0 目前已在 GitHub 以開原碼專案釋出,連同 Stability API 及消費性 App,包括 ClipDrop 及 DreamStudio 。 Stability AI 說,新模型生成的圖片比起之前版本色彩更鮮活、準確的色彩、對比、光影效果都更好。

Stability AI 應用機器學習主管 Joe Penna 指出,Stable Diffusion XL 1.0 包含 35 億個參數,而在數秒內產生多種長寬比的百萬像素解析度圖片。他指出,之前的 0.9 版也能產生高解析度圖片,但需要更多運算資源,而 Stable Diffusion XL 1.0 可客製化,容易微調成想要的概念和風格,而且也更容易使用、能用自然語言提示完成複雜設計。

最新 Stable Diffusion 的文字產生能力也更進步。其他文字轉圖片的模型無法生成清晰的 logo,字體也很有限,Stable Diffusion XL 1.0 都成功克服這方面問題。

此外,Stable Diffusion XL 1.0 還支援補足圖片失落的部份、擴充既有圖片,以及圖像到圖像(即用戶輸入圖片加文字,以增加圖片的細節特色。新模型也能理解以短提示組成的多重複雜指令。舊版則需要長的文字提示。

該公司表示,藉由釋出 Stable Diffusion 最新模型可讓創作者更容易製作高品質圖像。

不過新模型仍然面臨道德困境,例如可能落入歹徒手中,產生有害內容,例如 deepfake 圖片。對此 Stability AI 採取額外措施,像是過濾訓練資料集以避免生成「不安全的」圖像,對有問題的提示發警告,以及封堵多個容易引發問題的字詞等。

此外, Stability AI 也從該公司抗議的藝術家取得原作,作為訓練集。該公司相信這項可避免吃官司。一些圖片供應商如 Getty Images 等因為圖片智財權問題已經將 Stability AI 告上法院。

除了發表 Stable Diffusion XL 1.0,Stability AI 也發表 API 微調功能,允許使用者以最少 5 張圖來客製化特定人、產品的圖片生成。此外,該公司也將 Stable Diffusion XL 1.0 搬上 Amazon Bedrock,即 AWS 的 AI 模型服務。 Amazon Bedrock 之前已提供 Stable Diffusion 早前版本(其他還有 ChatGPT 、 Anthropic 、及 Amazon Titan FM),供客戶生成圖片、藝術創作、或 Logo 等設計。

來源:Techcrunch

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link