Generative AI(生成式 AI)經常給錯答案,這點連廠商也不諱言。一項研究發現,ChatGPT 給的程式開發解答,一半以上是錯,因此建議軟體工程師最好不要輕信。但研究也發現,因為 ChatGPT 表達能力太好,不少人會買單。
普渡大學 (Purdue University) 一項研究,利用 QA 平台 Stack Overflow 上 517 道和軟體開發相關的問題詢問 ChatGPT,請他提供答案,又問了 10 多位參與研究的工程師對這些答案的看法。他們希望藉此了解 ChatGPT 解答的正確性、完整性、簡潔性及一致性,以及分析 ChatGPT 回答的風格和情緒表現。
不意外的,結果很令人失望。 ChatGPT 給的答案僅有 48% 正確,而且有 77% 很不簡潔、很落落長。但是,這個聊天機器人回答具優異的完整性及用字遣詞,因此有將近 40% 的答案獲得受試者的青睞。但是這些答案中,有 77% 是錯誤的。
研究人員觀察到,只有在 ChatGPT 答案錯誤很明顯時,使用者才會發現。但如果錯誤未被驗證出來,或是需要外在 IDE 或文件,則使用者往往難以察覺,或是低估它錯誤的程度。
即使 ChatGPT 答案明顯錯誤,12 位受試者中有 2 人仍然選用了它的答案,原因是 AI 的語氣自信、肯定且令人愉悅。它看似完整及嚴謹的寫作風格,也提高了錯誤答案的可信度。
或許是提問的方法影響正確率?
研究人員指出,ChatGPT 的許多錯誤回答,來自於它無法理解問題的背景。
Generative AI 廠商往往在產品頁面警告用戶,其 AI 系統可能會給出錯誤答案。就連 Google 也警告員工小心 AI 聊天機器人,包括 Bard 的危險性,以及要避免直接將 AI 聊天機器人產生的答案用於產品程式碼中。被問及原因時,Google 指出,Bard 雖然有助提升生產力,但可能會給出有問題的程式碼建議。 Google 也說會坦白說明其 AI 技術的限制。
蘋果、 Amazon 、三星等,則是完全禁止公司內使用 ChatGPT 。
來源:Techspot
