普渡大學研究揭露ChatGPT寫程式錯誤率高達48% 軟體開發不宜輕信AI

普渡大學的研究發現，ChatGPT在軟體開發問題的解答中，僅有48%正確，77%回答過長。儘管如此，因表達能力優異，將近40%的答案受到青睞。結果揭示，用戶需謹慎處理AI聊天機器人的答案。

Generative AI（生成式 AI）經常給錯答案，這點連廠商也不諱言。一項研究發現，ChatGPT 給的程式開發解答，一半以上是錯，因此建議軟體工程師最好不要輕信。但研究也發現，因為 ChatGPT 表達能力太好，不少人會買單。

普渡大學 (Purdue University) 一項研究，利用 QA 平台 Stack Overflow 上 517 道和軟體開發相關的問題詢問 ChatGPT，請他提供答案，又問了 10 多位參與研究的工程師對這些答案的看法。他們希望藉此了解 ChatGPT 解答的正確性、完整性、簡潔性及一致性，以及分析 ChatGPT 回答的風格和情緒表現。

不意外的，結果很令人失望。 ChatGPT 給的答案僅有 48% 正確，而且有 77% 很不簡潔、很落落長。但是，這個聊天機器人回答具優異的完整性及用字遣詞，因此有將近 40% 的答案獲得受試者的青睞。但是這些答案中，有 77% 是錯誤的。

研究人員觀察到，只有在 ChatGPT 答案錯誤很明顯時，使用者才會發現。但如果錯誤未被驗證出來，或是需要外在 IDE 或文件，則使用者往往難以察覺，或是低估它錯誤的程度。

即使 ChatGPT 答案明顯錯誤，12 位受試者中有 2 人仍然選用了它的答案，原因是 AI 的語氣自信、肯定且令人愉悅。它看似完整及嚴謹的寫作風格，也提高了錯誤答案的可信度。

或許是提問的方法影響正確率？

研究人員指出，ChatGPT 的許多錯誤回答，來自於它無法理解問題的背景。

Generative AI 廠商往往在產品頁面警告用戶，其 AI 系統可能會給出錯誤答案。就連 Google 也警告員工小心 AI 聊天機器人，包括 Bard 的危險性，以及要避免直接將 AI 聊天機器人產生的答案用於產品程式碼中。被問及原因時，Google 指出，Bard 雖然有助提升生產力，但可能會給出有問題的程式碼建議。 Google 也說會坦白說明其 AI 技術的限制。

蘋果、 Amazon 、三星等，則是完全禁止公司內使用 ChatGPT 。

來源：Techspot

普渡大學研究揭露 ChatGPT 寫程式錯誤率高達 48% 軟體開發不宜輕信 AI

或許是提問的方法影響正確率？

相關

previousZoom推出全新功能Intelligent Director 打造如臨現場的會議體驗

next羅技看好視訊會議室持續成為企業溝通主力推出Rally Bar Huddle全功能視訊會議系統和Sight AI全景桌面攝影機

發表迴響取消回覆

相關

或許是提問的方法影響正確率？

相關

previousZoom推出全新功能Intelligent Director 打造如臨現場的會議體驗

next羅技看好視訊會議室持續成為企業溝通主力 推出Rally Bar Huddle全功能視訊會議系統和Sight AI全景桌面攝影機

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

next羅技看好視訊會議室持續成為企業溝通主力推出Rally Bar Huddle全功能視訊會議系統和Sight AI全景桌面攝影機

探索更多來自網路資訊雜誌的內容