普渡大學研究揭露 ChatGPT 寫程式錯誤率高達 48% 軟體開發不宜輕信 AI

普渡大學的研究發現,ChatGPT在軟體開發問題的解答中,僅有48%正確,77%回答過長。儘管如此,因表達能力優異,將近40%的答案受到青睞。結果揭示,用戶需謹慎處理AI聊天機器人的答案。

Generative AI(生成式 AI)經常給錯答案,這點連廠商也不諱言。一項研究發現,ChatGPT 給的程式開發解答,一半以上是錯,因此建議軟體工程師最好不要輕信。但研究也發現,因為 ChatGPT 表達能力太好,不少人會買單。

普渡大學 (Purdue University) 一項研究,利用 QA 平台 Stack Overflow 上 517 道和軟體開發相關的問題詢問 ChatGPT,請他提供答案,又問了 10 多位參與研究的工程師對這些答案的看法。他們希望藉此了解 ChatGPT 解答的正確性、完整性、簡潔性及一致性,以及分析 ChatGPT 回答的風格和情緒表現。

不意外的,結果很令人失望。 ChatGPT 給的答案僅有 48% 正確,而且有 77% 很不簡潔、很落落長。但是,這個聊天機器人回答具優異的完整性及用字遣詞,因此有將近 40% 的答案獲得受試者的青睞。但是這些答案中,有 77% 是錯誤的。

研究人員觀察到,只有在 ChatGPT 答案錯誤很明顯時,使用者才會發現。但如果錯誤未被驗證出來,或是需要外在 IDE 或文件,則使用者往往難以察覺,或是低估它錯誤的程度。

即使 ChatGPT 答案明顯錯誤,12 位受試者中有 2 人仍然選用了它的答案,原因是 AI 的語氣自信、肯定且令人愉悅。它看似完整及嚴謹的寫作風格,也提高了錯誤答案的可信度。

或許是提問的方法影響正確率?

研究人員指出,ChatGPT 的許多錯誤回答,來自於它無法理解問題的背景。

Generative AI 廠商往往在產品頁面警告用戶,其 AI 系統可能會給出錯誤答案。就連 Google 也警告員工小心 AI 聊天機器人,包括 Bard 的危險性,以及要避免直接將 AI 聊天機器人產生的答案用於產品程式碼中。被問及原因時,Google 指出,Bard 雖然有助提升生產力,但可能會給出有問題的程式碼建議。 Google 也說會坦白說明其 AI 技術的限制。

蘋果、 Amazon 、三星等,則是完全禁止公司內使用 ChatGPT 。

來源:Techspot

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link