OpenAI 宣佈已完成一個基於 GPT-4,能為 ChatGPT 輸出的程式碼抓出錯誤的 AI 模型,名為 CriticGPT 。
OpenAI 說,開發人員利用 CriticGPT 檢查 ChatGPT 輸出的程式碼,60% 時間效能超過只靠他們自己撰寫的程式。

OpenAI 說明,隨著 GPT-4 模型理解能力及行為的演進,ChatGPT 愈來愈精準,但其錯誤也愈來愈難為 AI 訓練人員察覺。但一旦真的有錯誤,就會增加強化式學習 (reinforcement learning from human feedback, RLHF) 的困難。為此,該公司訓練 CriticGPT 撰寫評論,來突顯 ChatGPT 答案中的不準確之處。
CriticGPT 也是以 RLHF 訓練出來的模型,但是它和 ChatGPT 不同,它看到輸入資料中有大量錯誤,然後開始評論。這位訓練員比較多個 CriticGPT 產出的評論後,可以更容易抓出問題
CriticGPT 的建議不總是正確,但 OpenAI 發現它幫助人類訓練員從 ChatGPT 生成的程式碼中,比起單靠他們自己抓蟲時發現到更多問題。他們相信這有助於提升人類訓練員的技能,並減少導致 AI 幻覺的臭蟲。
OpenAI 表示,這可協助評估難以為人類發現的 AI 系統產出的品質。該公司也開始將 CriticGPT 整合到他們 RLHF () 標註作業的流程,以輔助訓練人員。
但 CriticGPT 也有其限制。 OpenAI 以 ChatGPT 短答案來訓練 CriticGPT,但還不足以應付真實世界的複雜性,未來還需要強化它們理解長而複雜的回應內容的能力。其次,CriticGPT 模型還是會有幻覺在,連人類看到這些幻覺也會發生標註錯誤。最後,CriticGPT 目前還無法指出分散在程式碼不同位置的錯誤,這是 OpenAI 未來努力目標。
來源:OpenAI
