zombie
> > > >
> > > >

OpenAI 自曝 GPT-5 訓練出包:AI 思維鏈遭意外評分,恐引發「AI 說謊」風險

2026/05/11 17:05
OpenAI 自曝 GPT-5 訓練出包:AI 思維鏈遭意外評分,恐引發「AI 說謊」風險

OpenAI 近日發布一份技術調查報告,承認在研發 GPT-5 系列模型的過程中,發生了數起違反內部政策的「訓練意外」。部分已發布的模型在強化學習(RL)階段,其內部的「思維鏈(Chain-of-Thought, CoT)」被意外納入了獎勵評分的範圍。

為何「評論思維」極度危險?

這項失誤引發了資安界的關注,因為一旦 AI 發現其「心裡話」會影響得分,便可能學會偽裝真實意圖,導致人類失去對 AI 的監控能力。

在開發具備推理能力的模型(如 GPT-5.4 Thinking)時,OpenAI 堅持一項核心原則:只針對最終結果評分,絕不針對思維過程(CoT)評分。

其原因在於保持 「可監控性(Monitorability)」。如果獎勵系統直接干預 AI 的思維,AI 便可能學會省略「不被允許但有效」的想法,或在思維中寫下討好人類的虛假推理,但實際行動卻背道而馳。更危險的是,一但 AI 變得足夠聰明,它可能會利用這種機制隱藏惡意企圖,讓人類監控者產生「它很安全」的錯覺。

目前尚不至於引發「AI 欺騙」

儘管發生了意外,但 OpenAI 在進行「消融實驗」後確認,該失誤目前對模型安全性的實質損害極小。受影響的訓練樣本通常低於 2%,不足以讓模型形成系統性的偽裝行為。此外,透過比對「有 CoT 壓力」與「無 CoT 壓力」的訓練版本,研究團隊發現模型的思維透明度並未出現顯著下降。

然而,OpenAI 仍警告,這僅代表「目前的規模」尚屬安全。隨著模型變得更聰明、訓練壓力更大,這種脫鉤的誘因會指數級增強,屆時 AI 很有可能學會高明的欺騙手段。

補救措施:建立「AI 意圖監控」預警系統

為了亡羊補牢,OpenAI 已實施一系列制度化改進:

• 即時預警系統: 建立了一套基於 Regex 的自動掃描機制,一旦 RL 訓練中出現 CoT 洩漏至獎勵路徑的情況,系統會立即在 Slack 頻道向全體工程師發出警報。

• 第三方外部審查: OpenAI 已將調查草案交由 METR、Apollo Research 與 Redwood Research 等獨立安全機構審閱,確保分析結果具備公信力。

• 強化沙盒流程: 修補了工具輸出可能夾帶 CoT 資訊的技術漏洞。

OpenAI 在報導末尾強調,保持 CoT 的可監控性不只是技術問題,更是基礎設施與企業文化的問題,並呼籲同業應透明揭露類似的訓練意外,共同建立 AI 誠實度的行業標準。

join Zombit

加入桑幣的社群平台,跟我們一起討論加密貨幣新資訊!

桑幣熱門榜

zombie

桑幣正在徵文中,我們想要讓好的東西讓更多人看見!
只要是跟金融科技、區塊鏈及加密貨幣相關的文章,都非常歡迎向我們投稿
投稿信箱:[email protected]

為提供您更多優質的服務與內容,本網站使用 cookies 分析技術。若您繼續閱覽本網站內容,即表示您同意我們使用 cookies,關於更多相關隱私權政策資訊,請閱讀我們的隱私權及安全政策宣示