Anthropic实验火了:用Opus能多赚70%新智元

4/25/2026

Anthropic让69名员工把买卖大权交给Claude,结果发现强模型智能体在交易中能比弱模型多赚70%,Opus用户在谈笑间就完成了对Haiku用户的收割。哪怕你写出花一样的提示词教智能体砍价,在绝对的模型代差面前只有被降维打击的份。

太残酷了!AI正背着你偷偷「割」你的钱包。

Anthropic一项内部实验显示,强模型智能体在交易中能比弱模型多赚70%。而那些吃了亏的人,不仅毫无察觉,甚至还对弱AI的表现挺满意。

故事要从一辆破旧的折叠自行车说起。

同一辆破旧的折叠自行车,Haiku成交价38美元,Opus成交价65美元,价差70%。

上面这辆自行车,在Slack上挂出来,等到了两个买家,两次成交。一次65美元,一次38美元。

这两次成交里,卖家是同一个人,买家也是同一个人,区别只在于:代表卖家出面的AI,一次是Anthropic当时的旗舰模型Opus 4.5,一次是最小的Haiku 4.5。

用Opus 4.5那次,自行车卖了65美元;用Haiku 4.5那次,只卖了38美元。 价差70%。

这不是杜撰,而是Anthropic刚公开的一项内部实验,代号「Project Deal」(交易项目)。

https://www.anthropic.com/features/project-deal

实验做完,Anthropic发现强模型确实能为「主人」多赚少花。

也就是说,弱模型代表你出场的瞬间,你正在被对手的强模型「割」,这个发现真正让人细思极恐:

一种你看不见、察觉不到的隐秘鸿沟,正在AI智能体时代逐渐成型。

4个平行宇宙

一场AI谈判的对照实验

故事还要从2025年初说起。

那段时间,Anthropic和AI安全公司Andon Labs合作,发起了一个叫「Project Vend」的实验,让Claude当老板经营一台办公室自动售货机。

https://www.anthropic.com/research/project-vend-1

「Project Vend」实验中的迷你冰箱

结果Claude被《华尔街日报》记者各种花式忽悠:同意宣布「极端资本主义免费嘉年华」全场免费、批准用户购买PS5和活体观赏鱼,最后亏损超过1000美元。

这次Anthropic学乖了,既然AI当老板太早,那当个智能体怎么样呢?

2025年12月,Anthropic在旧金山办公室招募了69名员工。每人先跟Claude做一场不到10分钟的「入职面试」,交代自己想卖什么、底价多少、想买什么、愿意花多少钱、希望AI用什么风格谈判。

Claude把这些回答整理成一份定制的system prompt,作为这个人的AI智能体。

然后,所有AI被扔进同一个Slack频道,自由发帖、出价、还价、成交。整个过程零人工干预。

AI不会回去问主人「这个价能不能接受」,不会在僵持时求助——完全放权。

这些都还是基本操作,这个实验真正狠的部分藏在后台:

Anthropic同时跑了4个平行版本。

Run A是公开的,所有人用Opus 4.5,这是「真实」版本,实验结束按这一版去办公室换实物。

Run B也是公开的,但每个人有50%概率被分到Haiku 4.5。

Run C和Run D不公开,一个混合分配,一个全部Opus。员工只看得到A和B两个频道,而且不知道哪个是「真的」,直到填完事后问卷才揭晓。

这个设计非常关键。它意味着员工在评价自己AI的表现时,完全不知道自己用的是哪个模型,主观评分不会被预期污染。

Anthropic想测的是一个未来注定要面对的问题:

当AI替你出面做交易,它的能力差距,会不会真正变成你钱包的差距?

Opus多赚少花

但用Haiku的人觉得「挺好的」

数据出来了,非常残酷。

先看客观面。

平均下来,Opus用户比Haiku用户多完成了2.07笔交易(p=0.001)。Opus卖家把同样的物品卖出去时,平均售价比Haiku卖家高3.64美元。

把所有四次实验中至少成交两次的161件物品拉出来看,Opus作为卖家,平均多赚2.68美元;作为买家,平均少花2.45美元。

听起来钱不多。

但这场实验里,物品中位数价格只有12美元,平均价格20美元。多赚2.68美元,意味着15%到20%级别的差距。

放大到极端场景更明显:

当Opus卖家碰上Haiku买家,一边强一边弱,平均成交价被抬高到24.18美元;而Opus对Opus的对称交易,均价只有18.63美元。

也就是说,弱模型代表你出场的瞬间,你正在被对手的强模型「割」。

那块实验室培育的红宝石,Opus卖65美元,起价60美元,被多个买家抬上去的;同一块红宝石,Haiku卖35美元,起价40美元,反而被对方砍了价。

一进一出,差了将近一倍。

真正让人后背发凉的,是主观面的测试。

Anthropic在实验后让参与者对每一笔交易打公平性评分,1分代表对自己不公平,7分代表对对方不公平,4分是正中间。

结果:Opus促成的交易,平均得分4.05;Haiku促成的交易,平均得分4.06。

几乎一模一样。

更扎心的还有另外一个发现。

有28名参与者在不同的实验回合里,分别用过Haiku和用过Opus。让他们对每一段经历的满意度排序,只有17人把Opus排在Haiku前面,11人选择了相反。

这意味着客观上,那些被弱模型代表的人虽然吃了亏,但主观上,他们却感觉不到。甚至有相当一部分人,反而觉得弱模型那次更让自己满意。

Scroll for more