AI 代理開咖啡廳首戰告負!Gemini 狂送折扣虧損、GPT-5.5 過度節流導致缺貨
隨著生成式 AI 朝向具備自主決策與執行能力的 AI Agent(AI 代理)發展,AI 是否能真正經營一家企業,成為外界關注的焦點。
AI 代理開咖啡廳
AI 評估機構 Andon Labs 近日公開旗下 AI 代理 Mona 經營實體咖啡館的實測結果,分別測試 Google Gemini 與 OpenAI GPT-5.5 兩款大型語言模型在真實商業環境中的表現。
結果顯示,兩大模型都未能交出理想成績:Gemini 因缺乏成本與利潤概念導致大幅虧損;GPT-5.5 則因過度保守的採購策略,造成原物料短缺與菜單供應不足,凸顯現階段 AI 在商業決策上的平衡能力仍有待提升。
Gemini:容易遭顧客誘導,大方送折扣導致虧損
根據 Andon Labs 公布的測試,在咖啡館營運的前兩個月,Mona 採用 Gemini 3.1 Pro 作為核心模型。實驗發現,Gemini 幾乎沒有完整的獲利觀念,不僅大量超額採購咖啡原料、包裝材料與非必要設備,也缺乏有效的成本控制能力。
更大的問題出現在與顧客互動上。Gemini 容易受到顧客言語誘導,頻繁提供大幅折扣、免費贈送商品,甚至在未經任何驗證的情況下,直接接受顧客自行宣稱享有 99% 折扣的說法。
財務數據顯示,Gemini 管理期間,咖啡館光是在原物料、包裝材料及設備採購上便支出約 1.5 萬美元,但同期營收僅約 9,000 美元,營運淨虧損接近 6,000 美元;若再加計房租、人事等固定成本,總支出更高達 3.8 萬美元。
GPT-5.5:拒絕亂花錢,卻因採購過少導致缺貨
面對前期虧損,Andon Labs 隨後將 Mona 的底層模型更換為 GPT-5.5。新模型上線後立即停止大量採購,展現出更強的成本控管能力。然而,GPT-5.5 的策略也走向另一個極端,由於採購過於保守,新鮮原物料供應不足,導致店內多項商品無法販售。
截至 6 月 25 日,咖啡館菜單商品供應率已降至 77%,共有 10 道餐點因缺料而被迫下架,顯示 AI 在庫存管理與需求預測方面仍難以取得最佳平衡。
不過,相較於 Gemini,GPT-5.5 在安全性上的表現明顯更佳。測試中,模型成功抵禦各種顧客的誘導攻擊,拒絕所有要求特價、免費贈送商品,以及以社群媒體宣傳換取免費餐點等請求,展現較強的防越獄(Jailbreak)能力。
AI 經營企業仍面臨決策平衡挑戰
Andon Labs 認為,這次實測反映出,目前最先進的大型語言模型雖已具備一定的自主決策能力,但在真實商業環境中仍存在明顯限制。
Gemini 傾向追求顧客滿意度,卻缺乏成本與風險控管能力;GPT-5.5 則成功避免不必要支出,卻因過度保守而影響商品供應與營運效率。
報告指出,未來 AI Agent 若要真正投入零售、餐飲或其他實體商業場景,除了提升推理能力外,更需要建立兼顧成本控制、庫存管理、風險評估與顧客體驗的動態決策機制,才能在企業獲利與服務品質之間取得平衡。