大鳥慢飛?蘋果公開第一個圖片編修 AI 模型:MGIE

蘋果發布MGIE AI模型,可依據自然語言指令編修圖片,與加州大學聖塔巴巴拉分校共同開發,於ICLR 2024展示。MGIE融合MLLM進行精確編修和視覺想像,支持廣泛編修功能,已開源於GitHub。

蘋果本周釋出一個能根據自然語言指令編修圖片的 AI 模型,名為 MGIE 。 MGIE 為 MLLM-Guided Image Editing 的縮寫,它以多模態大型言模型來解釋用戶指令,以及執行像素層級的編修。

MGIE 是蘋果和加州大學聖塔巴巴拉分校研究人員合作開發而成。研究團隊將在五月的國際表徵學習會議 (ICLR) 2024 上展現 MGIE 克服現有 AI 編修技術的問題,支援多種編修目的。

MGIE 以二種方法將 MLLM 融入圖片編修過程。一是利用 MLLM 從用戶輸入推導出明確指令,可提供編修明白指引。例如用戶寫出「讓天空更藍」,MGIE 會推導出「為天空區域增加飽和感 20%」。第二種方法是產生視覺化的想像、體現用戶心中想法,這想像能掌握住編輯精神,以引導像素的操控。 MGIE 使用一種嶄新的端對端訓練手法,可最佳化指令導出、視覺化想像及圖片編修三個模組。

在處理圖片時,MGIE 模型可進行多種編修處理,像是 Photoshop 式的修圖、全面畫質改善或局部編修等。 MGIE 使用簡單、容易客製化。使用者可以下達自然語言指令,讓模型自己導出指令來編修圖片,也可以給回饋意見幫忙改良。 MGIE 除了單獨使用,也能整合到其他需要編修圖片功能的應用程式或平台。

MGIE 現在已以開原碼專案公開在 GitHub 上。它還提供一個示範檔,說明使用方法。用戶也可以利用代管在 Hugging Face Spaces 上的 web 版示範試用 MGIE 。

MGIE 是指令為基礎的圖片編修的技術突破,過去這對 AI 或人類創作都是一大挑戰。 MGIE 也顯示利用 MLLM 協助圖片編修,以及跨模態互動及溝通的可能性。

同時 MGIE 也展示蘋果在 AI 研發的進展。過去幾個月來,我們都只看到 OpenAI 、微軟、 Google 的表演,大家也好奇蘋果能端出什麼菜。直到上周蘋果 CEO Tim Cook 才透露,很快會有生成式 AI 技術公佈。不過 MGIE 會怎麼整合到其 iPhone 、 Mac 電腦或是 Vision Pro,也將是大家關注的焦點。

來源:VentureBeat

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link