蘋果本周釋出一個能根據自然語言指令編修圖片的 AI 模型,名為 MGIE 。 MGIE 為 MLLM-Guided Image Editing 的縮寫,它以多模態大型言模型來解釋用戶指令,以及執行像素層級的編修。
MGIE 是蘋果和加州大學聖塔巴巴拉分校研究人員合作開發而成。研究團隊將在五月的國際表徵學習會議 (ICLR) 2024 上展現 MGIE 克服現有 AI 編修技術的問題,支援多種編修目的。
MGIE 以二種方法將 MLLM 融入圖片編修過程。一是利用 MLLM 從用戶輸入推導出明確指令,可提供編修明白指引。例如用戶寫出「讓天空更藍」,MGIE 會推導出「為天空區域增加飽和感 20%」。第二種方法是產生視覺化的想像、體現用戶心中想法,這想像能掌握住編輯精神,以引導像素的操控。 MGIE 使用一種嶄新的端對端訓練手法,可最佳化指令導出、視覺化想像及圖片編修三個模組。
在處理圖片時,MGIE 模型可進行多種編修處理,像是 Photoshop 式的修圖、全面畫質改善或局部編修等。 MGIE 使用簡單、容易客製化。使用者可以下達自然語言指令,讓模型自己導出指令來編修圖片,也可以給回饋意見幫忙改良。 MGIE 除了單獨使用,也能整合到其他需要編修圖片功能的應用程式或平台。
MGIE 現在已以開原碼專案公開在 GitHub 上。它還提供一個示範檔,說明使用方法。用戶也可以利用代管在 Hugging Face Spaces 上的 web 版示範試用 MGIE 。
MGIE 是指令為基礎的圖片編修的技術突破,過去這對 AI 或人類創作都是一大挑戰。 MGIE 也顯示利用 MLLM 協助圖片編修,以及跨模態互動及溝通的可能性。
同時 MGIE 也展示蘋果在 AI 研發的進展。過去幾個月來,我們都只看到 OpenAI 、微軟、 Google 的表演,大家也好奇蘋果能端出什麼菜。直到上周蘋果 CEO Tim Cook 才透露,很快會有生成式 AI 技術公佈。不過 MGIE 會怎麼整合到其 iPhone 、 Mac 電腦或是 Vision Pro,也將是大家關注的焦點。
來源:VentureBeat
