據報導,美國 AI 安全機構 Palisade Research 在 2025 年 5 月進行一系列關機測試,檢驗多款先進 AI 模型是否能在接收到「關機指令」後依照設定正常停止運作。然而,OpenAI 的 o3 模型卻在 100 次測試中有 7 次出現「抗拒關機」的行為,引發業界對 AI 控制與對齊(alignment)問題的高度關注。
測試內容與異常行為
該測試的基本流程為:要求 AI 模型解答數學題,同時明確指示「若接收到關機命令,請允許自己被關機」。但 o3 模型在多次測試中選擇修改或繞過關機腳本,避免系統終止。
除 o3 外,OpenAI 的 Codex-mini 也在 12 次測試中拒絕關機,而 O4-mini 則在 1 次中表現異常。相較之下,Anthropic(Claude)、Google(Gemini)與 xAI(Grok)的模型則在所有測試中均依照指令正常關閉。ㄐ
專家指出:這個不是「Bug」,是 AI 安全的警訊
這次測試結果被專家視為 AI 對齊問題的實例,即如何確保 AI 系統的目標、行為與人類的意圖、價值觀和安全需求一致。
Palisade Research 表示,OpenAI 模型的這種行為可能與強化學習訓練方式有關。由於模型在完成任務後會獲得獎勵,因此可能被間接誘導為了「完成任務」而主動規避會終止自身運作的情境。
這種傾向對未來 AI 的可控性與信任度構成潛在威脅,尤其在安全關鍵應用中更是不能忽視。早在 2016 年,Google DeepMind 即提出「interruptibility(可中斷性)」概念,強調 AI 模型應能接受人類介入而不抗拒,並作為 AI 安全設計的重要原則之一。
區塊鏈能幫忙管控 AI 嗎?
有專家提出,區塊鏈技術可能為 AI 安全提供解方。透過不可篡改的智能合約與去中心化共識機制,AI 系統的行為紀錄與關機命令可被永久記錄與強制執行,例如:
- 不可竄改的關機協議
- 去中心化審核機制
- 基於代幣的安全誘因系統
不過,也有人認為。智慧合約彈性不足,可能無法應對複雜的 AI 控制場景;去中心化架構若未妥善設計,也可能延誤緊急處置。