微軟發表 LeMa 訓練 AI 從錯誤中學習 提高 LLM 解決數學難題的能力
微軟亞洲研究院、北京大學及西安交通大學研究人員開發出一個能如同人類從錯誤中學習的方法,以提升大型語言模型 (LLM) 解決數學難題的能力。
研究人員稱此方法為 LeMa (Learning from Mistakes),其精神是訓練 AI 透過修正自己的錯誤不斷精進推理能力。研究人員的靈感來源是人類學習方式,像是學生從錯誤中學習以提升未來表現。他們將此概念用於 LLM,利用 GPT-4 生成修正錯誤的資料來不斷微調。
方法
研究人員首先是讓 LLaMA-2 在數學應用題中生成有瑕疵的推理路徑。之後 GPT-4 辨識推理的錯誤,做出解釋,再提供修正的推理路徑。最後,研究人員利用修正的資料,進一步訓練原始模型。
這新方法效果卓著。相對於僅以 CoT 資料微調的方法,新方法在 5 個骨幹 LLM 及 2 個數學推論任務中,LeMa 都能持續改進 AI 模型的表現。
在困難資料集中亦有好表現
此外,LeMa 方法也可用來改良 WizarMath 及 MetaMath 等專精領域的 LLM,在高品質小學數學題資料集 GSM8K 達到 85.4% pass@1 準確率,在數學資料集 MATH 則達 27.1%,已經超出非執行開原碼模型。
這項研究突破之處不只是 AI 模型的推理能力提升,也標示著朝向能像人類一樣從錯誤中學習的 AI 系統邁進一步。
研究團隊將其成果,包括程式碼、資料和模型在 GitHub 上公開。他們的開原碼也鼓勵更多人加入,推進機器學習領域的創新。
LeMa 代表 AI 的一大里程碑,使機器學習可以更接近人類學習。此一方法可望能為一些 AI 重度應用的領域如醫療、金融和自駕車等帶來革命性的發展,這些領域中,修正錯誤及持續學習相當重要。
機器學習的技術突破也為人工智慧勾勒出令人振奮的未來。若機器能從錯誤中學習,也預告在一些困難的問題解決情境中,AI 超越人類的理想又更近了。
來源:VentureBeat