ChatGPT將更優化？微軟「Kosmos-1」多模態大型語言模型，帶起Bing瀏覽器新機會！

微軟推出了新的多模態大型語言模型AI分析工具「Kosmos-1」，它不僅能分析文字、圖片和影像內容，還可以理解自然語言指令。

前陣子微軟（Microsoft）將 ChatGPT 整併至自家瀏覽器 Bing 後不久，近期更推出了新的多模態大型語言模型 (Multimodal Large Language Model, MLLM) 的 AI 分析工具「Kosmos-1」，它不僅能分析文字、圖片和影像內容，還可以理解自然語言指令，未來可投入到像是影片的字幕、看圖回答問題、蒐集網頁資訊等應用。

微軟最新「Kosmos-1」為現今 ChatGPT 聊天機器人底層架構

在微軟釋出 Kosmos-1 論文指稱，Kosmos-1 能分析圖片內容，並回覆使用者圖片內容想傳達的含意，以及閱讀圖片上的文字、替圖片下註解。為了幫助 Kosmos-1 更精準地訓練，研究人員會事先將圖片以文字內容註記的方式，讓 Kosmos-1 進一步理解圖片的內容，來達到多模態（泛指文字、聲音和圖片等資料）運作模式。

會這麼做的原因，是因為現今多模態資料，很難直接套用到大型語言（Large Language Model；又稱 LLM），其具有超過 1,000 億個參數的自然語言處理（Natural Language Processing；NLP 系統），所以微軟推出 Kosmos-1，就是希望讓他具備多模態資料、遵循特定指令（即零樣本學習演算法；Zero-Shot Learning），並在指定條件下（小樣本學習；Few Shot Learning）學習的能力。

實測中的數據顯示，在常見的瑞文氏推理測驗（一種智力測驗）Kosmos-1 能從題目的圖文裡，預測接下來可能會出現的元素（像是魔術方塊轉下一圈會出現的圖形），雖然正確率相比其他測試者僅有 22% 的正確率，仍超過隨機填答的 17%，成為第一個能作答零樣本智力測驗的語言模型。

有趣的是，OpenAI 開發的 ChatGPT，便是基於 LLM 架構下誕生的聊天機器人，因此不排除未來 Kosmos-1 成熟後會套用到已經結合 ChatGPT 的 Bing 瀏覽器，藉此改善當初 Bing 在今年 2 月上線時，曾在 LLM 框架下使用 ChatGPT 導致網頁蒐集錯誤資料的問題，來優化整個 Bing 使用環境。

ChatGPT 將更優化？微軟「Kosmos-1」多模態大型語言模型，帶起 Bing 瀏覽器新機會！

微軟最新「Kosmos-1」為現今 ChatGPT 聊天機器人底層架構

相關

previous義大利BMW官方網站爆出開發文件外洩事件元兇竟是Web開發框架？

next微軟Azure OpenAI雲端服務提供ChatGPT 瞬間為App賦予AI能力

發表迴響取消回覆

相關

微軟最新「Kosmos-1」為現今 ChatGPT 聊天機器人底層架構

相關

previous義大利BMW官方網站爆出開發文件外洩事件 元兇竟是Web開發框架？

next微軟Azure OpenAI雲端服務提供ChatGPT 瞬間為App賦予AI能力

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

previous義大利BMW官方網站爆出開發文件外洩事件元兇竟是Web開發框架？

探索更多來自網路資訊雜誌的內容