简
繁

OpenAI 自曝 GPT-5 訓練出包：AI 思維鏈遭意外評分，恐引發「AI 說謊」風險

2026/05/11 17:05

zombit jeff

OpenAI 近日發布一份技術調查報告，承認在研發 GPT-5 系列模型的過程中，發生了數起違反內部政策的「訓練意外」。部分已發布的模型在強化學習（RL）階段，其內部的「思維鏈（Chain-of-Thought, CoT）」被意外納入了獎勵評分的範圍。

Table of Contents

為何「評論思維」極度危險？

這項失誤引發了資安界的關注，因為一旦 AI 發現其「心裡話」會影響得分，便可能學會偽裝真實意圖，導致人類失去對 AI 的監控能力。

在開發具備推理能力的模型（如 GPT-5.4 Thinking）時，OpenAI 堅持一項核心原則：只針對最終結果評分，絕不針對思維過程（CoT）評分。

其原因在於保持「可監控性（Monitorability）」。如果獎勵系統直接干預 AI 的思維，AI 便可能學會省略「不被允許但有效」的想法，或在思維中寫下討好人類的虛假推理，但實際行動卻背道而馳。更危險的是，一但 AI 變得足夠聰明，它可能會利用這種機制隱藏惡意企圖，讓人類監控者產生「它很安全」的錯覺。

目前尚不至於引發「AI 欺騙」

儘管發生了意外，但 OpenAI 在進行「消融實驗」後確認，該失誤目前對模型安全性的實質損害極小。受影響的訓練樣本通常低於 2%，不足以讓模型形成系統性的偽裝行為。此外，透過比對「有 CoT 壓力」與「無 CoT 壓力」的訓練版本，研究團隊發現模型的思維透明度並未出現顯著下降。

然而，OpenAI 仍警告，這僅代表「目前的規模」尚屬安全。隨著模型變得更聰明、訓練壓力更大，這種脫鉤的誘因會指數級增強，屆時 AI 很有可能學會高明的欺騙手段。

補救措施：建立「AI 意圖監控」預警系統

為了亡羊補牢，OpenAI 已實施一系列制度化改進：

• 即時預警系統：建立了一套基於 Regex 的自動掃描機制，一旦 RL 訓練中出現 CoT 洩漏至獎勵路徑的情況，系統會立即在 Slack 頻道向全體工程師發出警報。

• 第三方外部審查： OpenAI 已將調查草案交由 METR、Apollo Research 與 Redwood Research 等獨立安全機構審閱，確保分析結果具備公信力。

• 強化沙盒流程：修補了工具輸出可能夾帶 CoT 資訊的技術漏洞。

OpenAI 在報導末尾強調，保持 CoT 的可監控性不只是技術問題，更是基礎設施與企業文化的問題，並呼籲同業應透明揭露類似的訓練意外，共同建立 AI 誠實度的行業標準。

加入桑幣的社群平台，跟我們一起討論加密貨幣新資訊！

tags:

zombit jeff

桑幣快訊

桑幣熱門榜

zombie

桑幣正在徵文中，我們想要讓好的東西讓更多人看見！
只要是跟金融科技、區塊鏈及加密貨幣相關的文章，都非常歡迎向我們投稿
投稿信箱：[email protected]