微軟衝刺搜尋準確度 開發 AI 模型 Speller100 可檢查上百種語言的拼字錯誤

幾個月前,Bing只能對20幾種使用人口多的語言提供拼字錯誤修正,但微軟希望能擴大到100多種語言。這就是Speller100開發的起源。

微軟近日宣佈可對 100 多種語言進行拼字檢查的 AI 模型及其訓練法。

微軟具備高精準度及高召回 (recall) 率的一組拼字修正模型,統稱為 Speller 100 最近上線,目前用於改善 Bing 的搜尋結果。微軟解釋,由於使用者輸入查詢詞彙有 15% 帶有拼字錯誤,為讓 Bing 具備對不同語言拼字修正的能力,幾個月前,Bing 只能對 20 幾種使用人口多的語言提供拼字錯誤修正,但微軟希望能擴大到 100 多種語言。這就是 Speller100 開發的起源。

主流語言餵資料訓練    生僻語言用零樣本學習

拼字修正有賴底層高品質的拼字修正 AI 模型,而這又需要大量的網頁內容來事先訓練,但是許多使用人口少的語言往往無法找到夠多的網頁內容。為此,微軟 Speller100 運用了大規模事先訓練方法來訓練主流語言的修正模型,而針對較少人用的語言,則使用零樣本學習 (zero-shot learning)AI 技術訓練模型。零樣本學習可在不需標註訓練資料情況下,讓模型學習並修正拼字錯誤。

微軟解釋,拼字修正常用的是深度學習法,序列對序列 (seq2seq) 將文本裏的拼字錯誤(噪音)去除的過程 (denoise)。這方面微軟團隊以臉書 AI 部門的自然語言產生 (NLG)、翻譯和理解模型 BART 為基礎,發展出自有深度學習模型。微軟設計出噪音函式 (noise function),產生各種常見拼字錯誤,例如從 Microsoft 產生出 micorsoft、micrrosoft、micrsoft 和 micrtosoft 等錯誤。這方法可大幅減少人工標註的需求(機器學習就很需要),運用噪音函式即可獲得事先訓練模型,再微調成為非主流語言的零樣本或少量樣本學習情境,也不再需要大量網頁搜來的查詢樣本。

相近語系可彼此訓練

不過零樣本學習的事先訓練工作只在實驗語言中獲得 50% 的修正召回 (correction recall) 率,這還是太低。為此他們又想了另一個方法,對一組語言家族(即拼法、形狀、或聲音相近的語言)建立模型。例如同一語言家族的英語、德文、荷蘭、南非荷蘭語、盧森堡語中的「手指」分別為 finger、Finger、vinger、vinger、Fanger。利用相近的語言就可建立零樣本學習情境;雖然南非荷蘭語、盧森堡語資料很少,但英文和德文的樣本量夠豐富,就能用於前二種非主流語言模型建立。

微軟指出,零樣本學習及大量樣本的訓練下,讓以 Speller100 模型為底層的 Bing 在 100 多種語言的修正精確度和回收率都有雙位數改進。Bing 的線上 A/B 測試下,找不到結果的網頁數減少 30%,使用者必須手動修改查詢詞彙的次數減少 5%,使用者點選拼字建議的次數則從個位數提升到 67%,而使用者點選網頁任何品項的次數也由個位數提高到 70%。

來源:VentureBeat

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、MIS、IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2022 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416