AI巨头集体转向,盯上同一件事杜晨
OpenAI 的两大宿敌 Anthropic 和马斯克,放下心中成见之后终于在月初结盟了。
在此之前,Anthropic 和马斯克的关系并不融洽:今年 2 月,马斯克还在自己的 X 账号指责 A社「woke」「邪恶」「反人类」(misanthropic),说这家公司「仇视文明」。
事后来看,这次攻击并非马斯克清新脱俗的性格使然,而是 Anthropic 所做的某些事情触碰到他的神经,事出有因。
在此之前,xAI 内部使用 Cursor 工作,但是今年年初员工发现,Claude 模型突然在 xAI 的 Cursor公司账号里不能使用了。
当时还在 xAI 上班的联合创始人吴宇怀,在全员信里是这么说的:「Anthropic 更新了政策,要求 Cursor不得向其主要竞争对手提供 Claude 模型调用能力。」
后来,xAI 整个联创团队都散伙了,实体也跟 SpaceX合并,成为「SpaceXAI」。但当时,吴宇怀在信中写了一句话,颇为有趣:
「这是坏消息也是好消息。我们的生产力会被影响,但这也敦促我们开发自己的编码产品和模型。」
为什么当时 xAI 的高层认为,开发自己的编码产品是关键?
后来发生的事情,大家都知道了。xAI 的联创团队悉数跑路,马斯克一气之下对 Cursor 使用了钞能力必杀:
上个月底,SpaceX 和 Cursor 共同宣布,将在编程和知识类工作 AI模型的训练上,展开前所未有的战略合作;并且,SpaceX 还获得了以 600 亿美元收购 Cursor 的权利,或向后者支付 100亿美元合作费用。
注意编程这个关键定语,后面还会 call back.
最近,我看了一条 Cursor 早期投资人、Anthropic 大喷子、T3 创始人 Theo Browne 的视频。
本来点进去是看他喷 A 社和 SpaceX 怎么蝇营狗苟,结果没想到,却看到了关于 SpaceX + Cursor合作的,一个既另类却又极度合理的分析:
不说 600 亿的收购,就只说 100 亿的合作费——Theo 在视频里表示,自己认为「哪怕只是交换到 Cursor 的用户数据,这100 亿也值回票价了。」
所以是什么数据?如果你也去看 Theo 这条视频,他会讲得非常清楚。但为了节约时间,我们在这里简单概括一下:
我们和 AI 的对话是一来一回的,你提出问题/需求,它给你解答;coding agent 同理,只不过返回的是代码。
一次高质量的对话,整个过程,包括用户提示、模型思考、agent 规划、输出代码、验证——所有这些东西合起来,可以称为一个完整的Agentic Loop——就成为了高价值的训练数据,再喂给模型去进行强化学习,就能进一步提高模型在实战场景下的表现水准。
Cursor 有的,SpaceX 想要的,就是这些数据。
可这些数据从哪里来呢?
答案很简单:作为模型厂商,这种高质量数据的最直接来源,只能是你自己开发的 coding agent 产品——也即 Anthropic的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。
现在你应该明白了,为什么被 Anthropic「封号」之后,吴宇怀会在全员信里提出开发 xAI 自己的 coding产品和模型这件事了。这件事 xAI 在当时已经看清楚了:
没有自己的编码产品,就没有高质量的强化学习数据;没有高质量的数据,就训练不出真正实战能力强的 coding 模型。
虽然有点暴论,但现在我们可以点题了:模型厂商想做出来真正能打的编程模型,做自己的 coding agent 产品是唯一的路径。
大语言模型像个水晶球,用全网的语料训练出来,似乎能够解答万物,但并不代表它在所有问题上都能给出高质量的答案。
用 GitHub 上数以亿计的代码条目训练,当然也能训练出 coding模型。这是「学习结果」的逻辑,也是没问题的。毕竟编码任务的结果是可以验证的:代码能不能运行,测试能否通过,结果摆在那里。
但是,通往结果的过程,是一个涉及多步骤决策、错误纠正、意图对齐的复杂链条。每一次用户的接受、拒绝、补全、撤销、追问、甚至当模型好几次都搞不定或者完全搞错时的辱骂——都是这一链条上的过程信号。
强化学习有两种监督方式,一种叫做结果监督,只看最后是否跑通。但是结果监督会催生「奖励黑客」的现象:模型为了能跑通可能写出冗余、脆弱、带逻辑漏洞的代码,但因为测试过了,模型以为自己学对了。
而另一种叫做过程监督,对推理路径上的每一步进行打分。上述这些过程信号,只有在 coding agent运行环境里才能诞生。GitHub 仓库里只有结果,哪怕是去看单独的提交历史,看 PR,都找不到有效的过程信号。
在缺乏有效、自主可获得的过程信号的时候,一些模型厂商会采用「蒸馏」的方式,这个事情大家应该已经知道了。
蒸馏的逻辑很简单,给同样的输入,老师模型输出什么,学生模型就学着输出什么。但是通过蒸馏,即便可以获取到思维链,得到的仍然更像是结果,而非被蒸馏的老师模型内部的概率分布。


