想像一下,如果房子裡的東西可以對你的聲音有回應(即使你對著煙霧警報器大叫),還可以追蹤房子附近徘徊的人、認出你的聲音就能解開門鎖、甚至偵測你的情緒。這些功能,微軟 (Microsoft) 都準備要加到 Project Oxford 裡面—這是去年 5 月微軟在 Build 大會上推出的雲端機器學習服務。
這些服務會發揮多種影像處理和認知功能,提供文字轉化成語音和語音辨識服務,甚至可以把自然語言轉化成特殊目的的應用指令。微軟的 Cortana 個人助理以及 Skype 的翻譯服務也使用相同科技,Skype Translator 已經可以把語音即時轉成 6 國語言,文字則可以轉成 50 種語言。
微軟本週推出了臉部辨識 API 的升級版,他們在去年為 Movember 基金會的「十一月蓄鬍」募款活動設計了專門的臉部毛髮辨識 API,可以為人臉上的鬍子做評分,還可以在臉部影像上增加鬍子的圖案。

新的升級採用同樣以網路為基礎的 REST API,增加了聲音、文字和影像服務,還把人工智慧用來處理影響內容。微軟今天在倫敦的 Future Decoded 大會推出了新的介面,Microsoft Research Cambridge 主管 Chris Bishop 還發表了專題演說。微軟科技與研究部份資深專案負責人 Ryan Galgon 提到了新的 API 的新功能。相關細節如下:
情緒辨識:這種以 Azure 為基礎的服務,今天已經開放公開測試,它和其他 Project Oxford 的臉部 API 一樣,可以處理影像。這個服務可以辨識多組臉部畫面,來辨別不同的人類表情,可以把人的表情加以分類。它可以把註解資料 (metadata) 應用在影像上,判斷這個人的影響大部分是高興還是傷心,還可以蒐集人對於特定事件、影像或行銷訊息的反應。
拼字檢查:以網路 API 為基礎的拼字檢查,可以整合到所有的行動或雲端應用,不只可以辨識拼錯字,還可找出大小寫錯誤、情境拼字錯誤和其他問題。 Galgon 表示,由於是在雲端,所以不必一直更新,而且可以根據用法改變,不斷改善拼字建議。例如,一直到現在,拼字檢查還是會以為 Lyft(編註:這是美國的乘車服務)是 Lift 的錯字。 Project Oxford 的拼字服務可以根據情境,來決定拼字是否正確,而且把 Lyft 的開頭改成大寫。
影像處理:新的 Project Oxford 影像 API 是以微軟的 Hyperlapse 影像處理工具為基礎,會在今年底以前開放 Beta 測試版。它可以處理大量影像,辨別影像中相同的臉,並加以追蹤。它還可以偵測影像中人與物件的移動。利用這些偵測能力,機器學習演算法可以編輯影像,包括發揮影像穩定功能、避免不必要的晃動等。
發聲者辨識:Project Oxford 已經可以把語音轉化成文字,但新的發聲者辨識功能(也是年底測試)可以讓應用進行身份檢查,找出是誰在說話。 Galgon 表示,這種辨識並不是要取代變成更強的認證工具。但如果使用應用的人有變化,它可以偵測出來,然後要求提供額外的認證。另外的使用情境,可以用來辨識使用者,例如,可以辨識在電話會議中說話的人是誰,或辨別簡報或影片的配音員是誰。
客製辨識智慧服務 (Custom Recognition Intelligence Services; CRIS):目前已經開放測試。開發者可以用這個服務來開發語音辨識服務,做出更複雜的應用,滿足不同的情境或需求。 Galgon 表示,CRIS 服務可以用在球場的販售機,現場可能因為有大面水泥牆的回音和背景球迷的噪音,導致一般語音/文字引擎難以作用。另一個應用是,該服務可以在教室環境裡,把一個五歲孩童的話準確翻成文字,沒有錯誤。
除了臉部毛髮功能外,微軟也推出了新改版的 Project Oxford 臉部 API 。其中,性別與年齡偵測功能都獲得改善,另外微軟也加入了「微笑預測」工具。
