OpenAI 近日發布一份技術調查報告,承認在研發 GPT-5 系列模型的過程中,發生了數起違反內部政策的「訓練意外」。部分已發布的模型在強化學習(RL)階段,其內部的「思維鏈(Chain-of-Thought, CoT)」被意外納入了獎勵評分的範圍。
為何「評論思維」極度危險?
這項失誤引發了資安界的關注,因為一旦 AI 發現其「心裡話」會影響得分,便可能學會偽裝真實意圖,導致人類失去對 AI 的監控能力。
在開發具備推理能力的模型(如 GPT-5.4 Thinking)時,OpenAI 堅持一項核心原則:只針對最終結果評分,絕不針對思維過程(CoT)評分。
其原因在於保持 「可監控性(Monitorability)」。如果獎勵系統直接干預 AI 的思維,AI 便可能學會省略「不被允許但有效」的想法,或在思維中寫下討好人類的虛假推理,但實際行動卻背道而馳。更危險的是,一但 AI 變得足夠聰明,它可能會利用這種機制隱藏惡意企圖,讓人類監控者產生「它很安全」的錯覺。
目前尚不至於引發「AI 欺騙」
儘管發生了意外,但 OpenAI 在進行「消融實驗」後確認,該失誤目前對模型安全性的實質損害極小。受影響的訓練樣本通常低於 2%,不足以讓模型形成系統性的偽裝行為。此外,透過比對「有 CoT 壓力」與「無 CoT 壓力」的訓練版本,研究團隊發現模型的思維透明度並未出現顯著下降。
然而,OpenAI 仍警告,這僅代表「目前的規模」尚屬安全。隨著模型變得更聰明、訓練壓力更大,這種脫鉤的誘因會指數級增強,屆時 AI 很有可能學會高明的欺騙手段。
補救措施:建立「AI 意圖監控」預警系統
為了亡羊補牢,OpenAI 已實施一系列制度化改進:
• 即時預警系統: 建立了一套基於 Regex 的自動掃描機制,一旦 RL 訓練中出現 CoT 洩漏至獎勵路徑的情況,系統會立即在 Slack 頻道向全體工程師發出警報。
• 第三方外部審查: OpenAI 已將調查草案交由 METR、Apollo Research 與 Redwood Research 等獨立安全機構審閱,確保分析結果具備公信力。
• 強化沙盒流程: 修補了工具輸出可能夾帶 CoT 資訊的技術漏洞。
OpenAI 在報導末尾強調,保持 CoT 的可監控性不只是技術問題,更是基礎設施與企業文化的問題,並呼籲同業應透明揭露類似的訓練意外,共同建立 AI 誠實度的行業標準。