Anthropic实验火了：用Opus能多赚70%新智元

Anthropic让69名员工把买卖大权交给Claude，结果发现强模型智能体在交易中能比弱模型多赚70%，Opus用户在谈笑间就完成了对Haiku用户的收割。哪怕你写出花一样的提示词教智能体砍价，在绝对的模型代差面前只有被降维打击的份。

太残酷了！AI正背着你偷偷「割」你的钱包。

Anthropic一项内部实验显示，强模型智能体在交易中能比弱模型多赚70%。而那些吃了亏的人，不仅毫无察觉，甚至还对弱AI的表现挺满意。

故事要从一辆破旧的折叠自行车说起。

同一辆破旧的折叠自行车，Haiku成交价38美元，Opus成交价65美元，价差70%。

上面这辆自行车，在Slack上挂出来，等到了两个买家，两次成交。一次65美元，一次38美元。

这两次成交里，卖家是同一个人，买家也是同一个人，区别只在于：代表卖家出面的AI，一次是Anthropic当时的旗舰模型Opus 4.5，一次是最小的Haiku 4.5。

用Opus 4.5那次，自行车卖了65美元；用Haiku 4.5那次，只卖了38美元。价差70%。

这不是杜撰，而是Anthropic刚公开的一项内部实验，代号「Project Deal」（交易项目）。

https://www.anthropic.com/features/project-deal

实验做完，Anthropic发现强模型确实能为「主人」多赚少花。

也就是说，弱模型代表你出场的瞬间，你正在被对手的强模型「割」，这个发现真正让人细思极恐：

一种你看不见、察觉不到的隐秘鸿沟，正在AI智能体时代逐渐成型。

4个平行宇宙

一场AI谈判的对照实验

故事还要从2025年初说起。

那段时间，Anthropic和AI安全公司Andon Labs合作，发起了一个叫「Project Vend」的实验，让Claude当老板经营一台办公室自动售货机。

https://www.anthropic.com/research/project-vend-1

「Project Vend」实验中的迷你冰箱

结果Claude被《华尔街日报》记者各种花式忽悠：同意宣布「极端资本主义免费嘉年华」全场免费、批准用户购买PS5和活体观赏鱼，最后亏损超过1000美元。

这次Anthropic学乖了，既然AI当老板太早，那当个智能体怎么样呢？

2025年12月，Anthropic在旧金山办公室招募了69名员工。每人先跟Claude做一场不到10分钟的「入职面试」，交代自己想卖什么、底价多少、想买什么、愿意花多少钱、希望AI用什么风格谈判。

Claude把这些回答整理成一份定制的system prompt，作为这个人的AI智能体。

然后，所有AI被扔进同一个Slack频道，自由发帖、出价、还价、成交。整个过程零人工干预。

AI不会回去问主人「这个价能不能接受」，不会在僵持时求助——完全放权。

这些都还是基本操作，这个实验真正狠的部分藏在后台：

Anthropic同时跑了4个平行版本。

Run A是公开的，所有人用Opus 4.5，这是「真实」版本，实验结束按这一版去办公室换实物。

Run B也是公开的，但每个人有50%概率被分到Haiku 4.5。

Run C和Run D不公开，一个混合分配，一个全部Opus。员工只看得到A和B两个频道，而且不知道哪个是「真的」，直到填完事后问卷才揭晓。

这个设计非常关键。它意味着员工在评价自己AI的表现时，完全不知道自己用的是哪个模型，主观评分不会被预期污染。

Anthropic想测的是一个未来注定要面对的问题：

当AI替你出面做交易，它的能力差距，会不会真正变成你钱包的差距？

Opus多赚少花

但用Haiku的人觉得「挺好的」

数据出来了，非常残酷。

先看客观面。

平均下来，Opus用户比Haiku用户多完成了2.07笔交易（p=0.001）。Opus卖家把同样的物品卖出去时，平均售价比Haiku卖家高3.64美元。

把所有四次实验中至少成交两次的161件物品拉出来看，Opus作为卖家，平均多赚2.68美元；作为买家，平均少花2.45美元。

听起来钱不多。

但这场实验里，物品中位数价格只有12美元，平均价格20美元。多赚2.68美元，意味着15%到20%级别的差距。

放大到极端场景更明显：

当Opus卖家碰上Haiku买家，一边强一边弱，平均成交价被抬高到24.18美元；而Opus对Opus的对称交易，均价只有18.63美元。

也就是说，弱模型代表你出场的瞬间，你正在被对手的强模型「割」。

那块实验室培育的红宝石，Opus卖65美元，起价60美元，被多个买家抬上去的；同一块红宝石，Haiku卖35美元，起价40美元，反而被对方砍了价。

一进一出，差了将近一倍。

真正让人后背发凉的，是主观面的测试。

Anthropic在实验后让参与者对每一笔交易打公平性评分，1分代表对自己不公平，7分代表对对方不公平，4分是正中间。

结果：Opus促成的交易，平均得分4.05；Haiku促成的交易，平均得分4.06。

几乎一模一样。

更扎心的还有另外一个发现。

有28名参与者在不同的实验回合里，分别用过Haiku和用过Opus。让他们对每一段经历的满意度排序，只有17人把Opus排在Haiku前面，11人选择了相反。

这意味着客观上，那些被弱模型代表的人虽然吃了亏，但主观上，他们却感觉不到。甚至有相当一部分人，反而觉得弱模型那次更让自己满意。