微軟公佈能理解文字、圖片的 Phi-3-vision 模型、Edge 能即時翻譯 YouTube 影片
繼一系列 Copilot+PC 後,周二在 Build 開發者大會上,微軟公佈能看得懂圖片的本機端 AI 模型 Phi-3-vision,以及 Edge 即時翻譯影片等其他新功能。
Phi-3-vision 為多模態模型,能看懂文字和圖片,而且還小到可以跑在行動裝置上。昨天公佈預覽版的 Phi-3-vision 的規模為 42 億個參數,可回答你關於圖片或圖表的問題。
Phi-3-vision 遠比現有圖片 AI 模型如 OpenAI 的 DALL-E 或 Stability AI 的 Stable Diffusion 來得小。它僅看懂圖片並提供分析,不過不會生成圖片。Phi-3-vision 也是四月宣佈的 Phi-3 家族的最新成員,後者包含最小的 Phi-3-mini(38 億參數)。另二個為 Phi-3-small(70 億)及 Phi-3-medium(140 億)。
輕量型模型可離線執行 AI,具備成本效益、回應更快速及省電等好處,可在手機或筆電上執行又不需擔心吃掉太多記憶體。另一項訴求是資料不需傳上雲端,可確保用戶資料隱私及安全性。
微軟和蘋果已然在雲端之外,在用戶端展開另一 AI 戰場。蘋果上個月也公佈了裝置上執行的 AI 模型 OpenELM,最小僅有 2.7 億個模型。
本文目錄
Edge 即時 AI 影片翻譯
微軟在 Build 大會其他公佈還包括 Edge 瀏覽器可以 AI 即時翻譯影片,平台涵括 YouTube、LinkedIn、路透社新聞及開放大學 Coursera 等。這功能支援西、英語互翻,或英語翻德、義、俄及北印度語,很快會再增加其他語言及影片平台的支援。
Teams 可客製化表情符號
現在用戶可以為 Teams 運用圖片或照片自製表情符號,但企業管理員也可以控管成員能否啟用這功能。本功能 7 月推出。
小型 Snapdragon PC
高通推出 899 美元的 Snapdragon Dev Kit for Windows,大小如 Mac Mini,內建最新 Snapdragon X Elite 晶片、32GB RAM、512 SSD 及許多傳輸埠,不過上市時程未定。
檔案總管也可管理 Git
微軟將 Git 整合到檔案總管中,這意謂它能追蹤程式開發專案,開發人員能直接從檔案總管檢視檔案狀態、commit 訊息及分支狀態。這功能原生支援 7-zip、TAR 等壓縮格式。
PowerToys 加入 AI 剪貼簿
Windows 11 的 PowerToys 公用程式套件新增進階貼上 (Advanced Paste) 功能,讓你更快速轉換剪貼簿內容,例如轉成純文字、JSON 或 markdown 標記語法。這功能可以從 Windows 鍵+Shift+V 叫出使用。