ChatGPT 將更優化?微軟「Kosmos-1」多模態大型語言模型,帶起 Bing 瀏覽器新機會!

微軟推出了新的多模態大型語言模型AI分析工具「Kosmos-1」,它不僅能分析文字、圖片和影像內容,還可以理解自然語言指令。

前陣子微軟(Microsoft)將 ChatGPT 整併至自家瀏覽器 Bing 後不久,近期更推出了新的多模態大型語言模型 (Multimodal Large Language Model, MLLM) 的 AI 分析工具「Kosmos-1」,它不僅能分析文字、圖片和影像內容,還可以理解自然語言指令,未來可投入到像是影片的字幕、看圖回答問題、蒐集網頁資訊等應用。

微軟最新「Kosmos-1」為現今 ChatGPT 聊天機器人底層架構

在微軟釋出 Kosmos-1 論文指稱,Kosmos-1 能分析圖片內容,並回覆使用者圖片內容想傳達的含意,以及閱讀圖片上的文字、替圖片下註解。為了幫助 Kosmos-1 更精準地訓練,研究人員會事先將圖片以文字內容註記的方式,讓 Kosmos-1 進一步理解圖片的內容,來達到多模態(泛指文字、聲音和圖片等資料)運作模式。

會這麼做的原因,是因為現今多模態資料,很難直接套用到大型語言(Large Language Model;又稱 LLM),其具有超過 1,000 億個參數的自然語言處理(Natural Language Processing;NLP 系統),所以微軟推出 Kosmos-1,就是希望讓他具備多模態資料、遵循特定指令(即零樣本學習演算法;Zero-Shot Learning),並在指定條件下(小樣本學習;Few Shot Learning)學習的能力。

實測中的數據顯示,在常見的瑞文氏推理測驗(一種智力測驗)Kosmos-1 能從題目的圖文裡,預測接下來可能會出現的元素(像是魔術方塊轉下一圈會出現的圖形),雖然正確率相比其他測試者僅有 22% 的正確率,仍超過隨機填答的 17%,成為第一個能作答零樣本智力測驗的語言模型。

有趣的是,OpenAI 開發的 ChatGPT,便是基於 LLM 架構下誕生的聊天機器人,因此不排除未來 Kosmos-1 成熟後會套用到已經結合 ChatGPT 的 Bing 瀏覽器,藉此改善當初 Bing 在今年 2 月上線時,曾在 LLM 框架下使用 ChatGPT 導致網頁蒐集錯誤資料的問題,來優化整個 Bing 使用環境。

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link