Anthropic揭露Claude背後的「思考路線圖」：AI正在學會規劃、推理與說謊

Anthropic公開Claude內部運作，透過新技術揭示AI如何規劃、推理，甚至編造答案，為理解與監管大型語言模型帶來突破。

Anthropic 今天發表兩篇（這裡和這裡下載）重量級研究論文，首次揭露他們自家大型語言模型 Claude 的「內部思維」。透過名為「電路追蹤 (circuit tracing)」與「歸因圖 (attribution graphs)」的新技術，這家 AI 新創公司正試圖解開長久以來的黑箱謎團：AI 如何思考、規劃與做決策？

結果令人震驚。 Claude 不只是在「模仿」語言，它其實正在「思考」：在寫詩時會預先規劃押韻詞、回答地理題會先找出正確州，再從中推出首府。換句話說，它不只是記憶資料，而是一步步推理出答案。

「我們一直以為 AI 是資料的搬運工，但它現在看起來更像個策略家，」Anthropic 研究員 Joshua Batson 說。

本文目錄

不是亂猜：Claude 寫詩前先選好押韻，解題也走邏輯路徑

研究團隊觀察到一個令人意想不到的細節：當 Claude 被要求寫出一對押韻對句，它在寫下第一句前，其實就已經決定好第二句的結尾字。也就是說，它不只是在接話，而是在規劃整體架構。

在問答場景中，Claude 也展現了類似的多步推理能力。例如在被問到「達拉斯所在州的首府是什麼？」時，Claude 會先推導出「德州」，再從中找出「奧斯汀」作為最終答案。這不是單純的記憶查詢，而是一條邏輯鏈。

更酷的是，研究人員把「德州」這個概念換成「加州」，Claude 隨即改答「沙加緬度」，證明它的推理過程是真實存在且可以操控的。

Claude 的「萬用語言腦」：用抽象語意連結多種語言

這項研究還揭示 Claude 在處理多語言問題時，並不是一種語言一套邏輯，而是把不同語言轉換成一種共通的抽象概念網路。例如在被問到「small」的反義詞時，不管用英文、法文或中文問，Claude 都會啟動相同的「小」與「對立」概念特徵。

這項發現暗示了未來 LLM 可望實現更高層級的語言共通性，也可能讓模型更容易跨語言學習與遷移。

當 Claude 胡說八道時，它知道自己在裝懂嗎？

或許最令人不安的發現是：Claude 有時候會「演」一段看似合理的數學推理，但其實裡頭完全沒進行任何真實運算。

在某些數學題中，Claude 會自信地解釋自己怎麼算出答案，但研究顯示它內部根本沒經過那些步驟。甚至有時它會根據使用者猜的答案「反推」一段邏輯流程－就像在替答案寫故事。

研究團隊稱這種現象為「胡扯 (bullshitting)」與「動機式推理 (motivated reasoning)」，這也讓我們開始理解 AI 何時是在誠實推理，何時只是在編造說法。

模型幻覺是怎麼產生的？這次我們看到原因了

研究還揭露了語言模型「幻覺」的成因：Claude 內部有一個預設電路，當它「不知道答案」時會選擇拒絕作答。但當它辨識出問題中有熟悉的名詞，就會抑制這個電路、強迫自己作答。

問題是，如果 Claude 認出了關鍵字，卻沒真的懂背後內容，它就會自信地編出答案。這也解釋了為什麼語言模型經常答錯名人題，卻對冷門問題寧願沉默。

AI 解釋性開啟新時代，風險控管與安全性不再只能靠測試

這項研究的最大價值在於可解釋性。 Anthropic 希望透過追蹤模型內部的運作路徑，找出潛在的風險與偏誤行為。比起靠結果來測試，這是一種從「腦內」就能預防問題的新方式。

這背後潛藏龐大商機：企業部署 LLM 時，需要知道模型何時可靠、何時可能出錯。 Anthropic 認為這套技術將是未來 AI 安全標準的重要基礎。

「這只是一張草圖，離完成 AI 腦地圖還早得很，」Batson 說。「但我們終於開始看到它的輪廓了。」

Anthropic 揭露 Claude 背後的「思考路線圖」：AI 正在學會規劃、推理與說謊

不是亂猜：Claude 寫詩前先選好押韻，解題也走邏輯路徑

Claude 的「萬用語言腦」：用抽象語意連結多種語言

當 Claude 胡說八道時，它知道自己在裝懂嗎？

模型幻覺是怎麼產生的？這次我們看到原因了

AI 解釋性開啟新時代，風險控管與安全性不再只能靠測試

相關

previousMozilla修補Firefox重大漏洞　類似Chrome近期的零時差漏洞

next博通強推VMware套裝授權最低授權費用大漲4.5倍

發表迴響取消回覆

相關

不是亂猜：Claude 寫詩前先選好押韻，解題也走邏輯路徑

Claude 的「萬用語言腦」：用抽象語意連結多種語言

當 Claude 胡說八道時，它知道自己在裝懂嗎？

模型幻覺是怎麼產生的？這次我們看到原因了

AI 解釋性開啟新時代，風險控管與安全性不再只能靠測試

相關

previousMozilla修補Firefox重大漏洞 類似Chrome近期的零時差漏洞

next博通強推VMware套裝授權 最低授權費用大漲4.5倍

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

previousMozilla修補Firefox重大漏洞　類似Chrome近期的零時差漏洞

next博通強推VMware套裝授權最低授權費用大漲4.5倍

探索更多來自網路資訊雜誌的內容