大鳥慢飛？蘋果公開第一個圖片編修AI模型：MGIE

蘋果發布MGIE AI模型，可依據自然語言指令編修圖片，與加州大學聖塔巴巴拉分校共同開發，於ICLR 2024展示。MGIE融合MLLM進行精確編修和視覺想像，支持廣泛編修功能，已開源於GitHub。

蘋果本周釋出一個能根據自然語言指令編修圖片的 AI 模型，名為 MGIE 。 MGIE 為 MLLM-Guided Image Editing 的縮寫，它以多模態大型言模型來解釋用戶指令，以及執行像素層級的編修。

MGIE 是蘋果和加州大學聖塔巴巴拉分校研究人員合作開發而成。研究團隊將在五月的國際表徵學習會議 (ICLR) 2024 上展現 MGIE 克服現有 AI 編修技術的問題，支援多種編修目的。

MGIE 以二種方法將 MLLM 融入圖片編修過程。一是利用 MLLM 從用戶輸入推導出明確指令，可提供編修明白指引。例如用戶寫出「讓天空更藍」，MGIE 會推導出「為天空區域增加飽和感 20%」。第二種方法是產生視覺化的想像、體現用戶心中想法，這想像能掌握住編輯精神，以引導像素的操控。 MGIE 使用一種嶄新的端對端訓練手法，可最佳化指令導出、視覺化想像及圖片編修三個模組。

在處理圖片時，MGIE 模型可進行多種編修處理，像是 Photoshop 式的修圖、全面畫質改善或局部編修等。 MGIE 使用簡單、容易客製化。使用者可以下達自然語言指令，讓模型自己導出指令來編修圖片，也可以給回饋意見幫忙改良。 MGIE 除了單獨使用，也能整合到其他需要編修圖片功能的應用程式或平台。

MGIE 現在已以開原碼專案公開在 GitHub 上。它還提供一個示範檔，說明使用方法。用戶也可以利用代管在 Hugging Face Spaces 上的 web 版示範試用 MGIE 。

MGIE 是指令為基礎的圖片編修的技術突破，過去這對 AI 或人類創作都是一大挑戰。 MGIE 也顯示利用 MLLM 協助圖片編修，以及跨模態互動及溝通的可能性。

同時 MGIE 也展示蘋果在 AI 研發的進展。過去幾個月來，我們都只看到 OpenAI 、微軟、 Google 的表演，大家也好奇蘋果能端出什麼菜。直到上周蘋果 CEO Tim Cook 才透露，很快會有生成式 AI 技術公佈。不過 MGIE 會怎麼整合到其 iPhone 、 Mac 電腦或是 Vision Pro，也將是大家關注的焦點。

來源：VentureBeat

大鳥慢飛？蘋果公開第一個圖片編修 AI 模型：MGIE

相關

previousHPE資料疑遭駭客IntelBroker竊取並在地下論壇兜售

nextWindows SmartScreen與MoTW安全功能被繞過，微軟急修零時差漏洞

發表迴響取消回覆

相關

相關

previousHPE資料疑遭駭客IntelBroker竊取並在地下論壇兜售

nextWindows SmartScreen與MoTW安全功能被繞過，微軟急修零時差漏洞

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

探索更多來自網路資訊雜誌的內容