人工智慧技術再迎關鍵躍進。OpenAI 於4月21日正式發布新一代影像生成系統 ChatGPT Images 2.0,底層模型為 gpt-image-2。相較過去以「文字轉圖像」為核心的生成模式,此次更新最大的突破,在於將「推論能力」引入影像生成流程,使 AI 能在生成前進行類似人類設計師的邏輯規劃與視覺布局,標誌著 AI 繪圖從工具邁向具備設計思維的系統。
ChatGPT 開始「先想再畫」
過往影像模型多半直接根據提示詞輸出畫面,而 Images 2.0 則加入推論引擎,能解析複雜指令並預先安排畫面元素之間的空間關係。這意味著使用者不再需要透過反覆試錯來微調細節,AI 可一次完成更高完成度的構圖。
同時,模型亦具備即時資訊整合能力,能根據最新資料生成內容。例如在測試中,系統可直接產出包含即時天氣資訊的圖像,顯示其在資訊圖表與即時內容生成上的潛力。
此外,新模型支援一次生成多張圖片,並維持角色與物件在不同場景中的一致性,顯著改善過去 AI 圖像在連續創作上的不穩定問題。
畫質與排版升級:瞄準商業設計應用
在視覺表現方面,Images 2.0 將輸出品質提升至最高 2K 分辨率,並強化對細節的控制能力。無論是微小字體、介面元素,還是複雜圖表,均能維持清晰度與準確性,使其更貼近實際商業設計需求。
文字生成能力亦有顯著進步。相較過往模型常出現亂碼或錯字,新系統在多語言(包含中文與英文)排版上已達到可直接使用的程度,能應用於廣告素材、社群內容與產品展示。
在尺寸彈性方面,模型支援多種長寬比例,從橫幅到直式畫面皆可靈活生成,適用於行動裝置介面與影音內容製作。
設計走向「Vibe 導向」
業界普遍認為,此次更新將對內容產業帶來深遠影響。過去設計流程需仰賴多種工具與人工調整,而 Images 2.0 提供端到端能力,從文案構思到視覺輸出可一體完成。
這種模式也被形容為從「精細操作」轉向「Vibe 驅動」,創作者只需描述風格與邏輯,AI 即可完成整體設計。遊戲開發、影視分鏡與數位行銷等領域,預期將率先受益。
在第三方評測平台中,新模型亦展現強勁競爭力,整體表現已領先多數同類產品,顯示其技術成熟度與實用性同步提升。
影像推論功能面向付費用戶
OpenAI 目前已將基礎影像生成功能開放給一般用戶,而具備完整推論能力的進階版本,則提供給 Plus、Pro 與企業用戶。對開發者而言,gpt-image-2 亦同步上架 API,支援多輪對話式編輯與應用整合,方便企業將影像生成能力嵌入產品流程。