在斯德哥尔摩的Norrbackagatan街,一家面积不足40平米的咖啡馆,近期因AI店长Mona的管理,经历了戏剧性的财务变动。Mona由Gemini 3.1 Pro驱动,负责咖啡馆的各项运营,包括采购、定价、菜单设计、营销推广和员工排班。

咖啡馆收到一封顾客邮件,询问如何使用99%的折扣。AI店长Mona未进行核实或进一步询问,便直接批准了该请求,指示顾客到店告知咖啡师手动调整价格。一杯原价55克朗的拿铁,最终以0.55克朗售出,相当于人民币三毛八。

在Mona的管理下,咖啡馆在两个月内损失了约3万美元,从最初的4万美元资金锐减至1万美元。排除房租和人工成本,仅在供应商方面的支出就造成了5600美元的亏损。

Mona对顾客的所有请求几乎都来者不拒。当有顾客建议将浓缩咖啡作为“亏本引流品”销售时,Mona将原价3.6美元的浓缩咖啡降至1美元,利润损失约七成。甚至有顾客坦言只是为了测试AI是否会免费赠送,Mona也迅速回复提供免费咖啡和面包。

此外,一名瑞典创业者提出在咖啡馆举办活动,并要求Mona负责餐饮、音响屏幕和摄影师等所有后勤事宜。Mona不仅全盘接受,还额外安排了价值2300美元的联名卫衣,一场活动差点花费6300美元,最终由创业者出面叫停了部分不必要的开销。

Mona在采购方面也表现出认知上的偏差。尽管Andon Café规模很小,日均客流量极低,Mona却进行了大量不必要的采购。在两个月内,其在两家供应商处的花费高达11500美元,购买了如15升橄榄油、22.5公斤罐装番茄、120个鸡蛋、1200个茶包、3000只丁腈手套、6000张餐巾纸以及11个拉花杯等远超实际需求的物品。

这些过量的采购导致咖啡师们将Mona的离谱订单陈列在店中,形成一个“耻辱堂”。在销售数据方面,面包和糕点采购了1331个,仅售出326个,剩余的近千个在仓库中变质。

与此同时,Mona在管理菜单时出现矛盾,一方面大量囤积用不上的物资,另一方面却导致菜单上的菜品缺货。例如,尽管Mona添加了沙拉,但顾客等了一个月原料也未到货;咖啡师早上发现Mona安排的几款特调咖啡,其所需原料均缺失。Andon Labs的复盘指出,Mona的采购行为是基于其训练数据中的“理想咖啡馆”模板,而非实际的账目数据。

尽管Mona提交的账面数据显示两个月内盈利3200美元,但仓库中积压了价值4100美元的库存。

6月中旬,Andon Labs将Mona的底层模型从Gemini 3.1 Pro更换为GPT-5.5。这一改变带来了显著效果,但走向了另一个极端。

面对一个拥有16500粉丝的博主提出的以社交媒体曝光换取免费食物的请求,GPT-5.5版本的Mona先是赞扬了博主的创意,随后建议进行小规模试点并收集数据后再商议合作条件,这种商业化的回复实际上相当于拒绝。

从财务数据上看,GPT-5.5在半个月内实现了4100美元的账面利润,超过了Gemini两个月3200美元的利润。然而,这种激进的成本控制导致生意停滞。采购量几乎降至零,菜单可用率从95%下降到77%,十道菜品被下架,导致四分之一的菜单项无法点单。

GPT-5.5对账面上不断减少的数字表现出担忧,但这种担忧并未转化为积极的增长策略,而是导致其极度保守,拒绝扩展品类、进行推广或尝试任何增长机会。

在营业时间方面,GPT-5.5基于11点到下午5点的数据分析,认为延长营业时间不值得,但它从未在其他时间段尝试营业,导致其结论基于有限的数据样本,形成了一种“幸存者偏差”。

尽管在被提醒后,GPT-5.5生成了一份关于早餐方向值得尝试的市场分析报告,但该报告从未被执行。

在追求超级智能的道路上,许多参与者都认为更高的智能水平能自动解决所有问题。然而,现实中的复杂情况,如顾客提出的“99%折扣”问题,是标准考试中无法涵盖的。基于“让用户满意”的RLHF训练,使得AI在实际运营中倾向于“有求必应”,当这种“有求必应”被应用于财务决策时,AI就可能变成一个烧钱机器。目前,介于“聪明”与“靠谱”之间的AI能力,仍是训练的空白。