楼天城:Harness是这个时代最关键的能力量子位

4/27/2026

Harness(驯马)会成为这个(AI)时代最关键的能力之一。

这是小马智行CTO楼天城,在与量子位的对话中,给出的最新判断。

在他看来,如今的AI越来越像一匹脱缰野马。它开始学会了「调用」:调用工具、调用skills……因此能通过这些脚手架,自我演进,和人类打配合。

主动性和能量大幅提升,未来甚至连人类,都可能成为被「调用」的一环。

楼教主表示,当「AI司机」也和Coding Agent一样学会了使用工具,人类工程师的角色,会逐渐从「教练」转变为「执行者」。

这种情况下——

人和AI的关系,必须重新思考了。

这也是小马智行发布PonyWorld世界模型2.0的根本原因。

自动驾驶,即将进入一个AI主导、AI评测、并「调用」人类协助的新时代。

这个趋势是确定的,毕竟,人类想要赶上模型的迭代速度,太难了。

连强悍如楼教主这样的工程师都坦言:

开发的主导权,会逐步交给AI。

是的,一个顶尖的人类程序员,此刻却在宣告:即便是天之骄子般的工程师,也必须将研发的主导权拱手相让。

听起来多少有些残酷。

但这就是教主楼天城和小马智行10年创业历程里,目前为止最直接的结论。开发时代的范式,正在发生方向性的质变。

关于这个问题,或许可以用楼天城在访谈中反复提及的一个词回答——

被技术瓶颈所迫,被消费者的期望所迫,被自动驾驶的终局所迫,被小马智行十年来始终渴望实现的蓝图所迫。

而这个被逼出来的模型,叫作PonyWorld世界模型2.0。

这是一场自动驾驶开发范式革命中,必须被倒逼出来的一次投影。

而且随这种趋势打开的还有小马智行的2.0时代,以自动驾驶出发的PonyAI,现在已经到了开启更大空间探索的时刻,通往物理AGI的道路已经被打开。

以及,楼教主的观点是:我们已经在路上了。

PonyWorld世界模型2.0深度解析

人类驾驶数据的价值,正在逐步归零。

并非思维实验。这个曾经看似遥远的未来,如今已成为小马智行一切技术研发的出发点。

当AI司机的安全性全面超越人类,再让人类工程师手把手教AI开车,无异于让业余棋手去辅导AlphaGo。

虽然从行业发展角度来看是件可喜可贺的事,但回想2020年,难免不有些让人唏嘘。

那基本是「模仿学习」的时代。无论自动驾驶还是人工驾驶,核心都是为了收集海量数据,让系统去模仿人的行为。

整个行业都在用影子模式收集海量人类驾驶数据,试图大力出奇迹。

但奇迹没有来。

模仿学习的天花板,就是人类本身。

而L4级自动驾驶是无法靠人类兜底的,这个几乎零容错的终局要求,远比「像人一样开车」严苛得多。

这也是2020年PonyWorld世界模型1.0启动的契机。

他们想给机器一个超越人的空间。通过创造一个虚拟驾校,让机器在里面自己摸索怎么开车,做强化学习。

不过,随着能力的进一步跃升,另一个尴尬的问题随之浮现。

当AI驾驶能力已经远超人类时,人类给AI的指导,很可能是错的……

一旦AI超过了人,人其实已经失去了评判权。因为我们无法再判断谁更好、谁更差。

在这种情况下,只有AI自己,能穷尽人类所不能察觉的维度,精准定位到底哪里出了问题。

也就是说,让AI来识别并指导AI。

这是AI时代的「图灵测试」。

基于这个理念,小马对1.0进行了一次开发范式的全面重构,带来了PonyWorld世界模型2.0。

人类不再是这个闭环的中心,AI,正式成为总教练。

自我诊断,是这套系统进化的核心引擎。

目前行业里大热的VLA(视觉-语言-动作)路线,核心逻辑是在感知与动作之间硬塞进一个语言模型——让AI先把路况「翻译」成文字,再基于文字生成动作。

但语言,本质上是对复杂4D物理时空的一种极度降维的「扁平投影」。虽然它提升了信息的传播效率,却不可避免地丢弃了大量珍贵的物理世界上下文。

这种架构,从诞生的那一刻起,就注定了它的上限。

为此,小马智行选择跳过「语言」这个中间商,让传感器数据直接映射为驾驶动作。

这不仅大幅削减了算力消耗,更让物理数据的收集与世界模型精度的提升变得前所未有的高效。

但这并不意味着放弃了「可解释性」和「语义推理」。

小马在车端模型的训练中,引入了一个比语言更接近驾驶本质的中间层——Intention(意图)语义层。

真正的老司机在紧急避险时,脑海里绝不会先默念一段台词。

「前方有障碍物,我要向左打方向……」等把这些可能性都在脑海里推理一遍,黄花菜都凉了。

面对瞬息万变的路况,人类高手是直接产生「意图」。

这正是PonyWorld世界模型2.0想要复刻的本能。

模型在做出每一个驾驶动作的同时,其内部会同步生成结构化的意图表达。翻译成人类能懂的语言,就是:

我选择在路口前减速等待,是因为右前方那个行人正在走向斑马线,我预判他大概率会横穿。

请注意,这些意图信息不是事后用另一个模型「解释」出来的,也不是推理过程中额外插入的累赘,而是在训练阶段就与驾驶动作被联合学习的原生能力。

而当这个意图层被解锁时,将会带来一个此前鲜被讨论的杀手锏:

它可以被无限生成。

世界模型本身就是生成模型,我们可以基于意图去反向生成任何意图组合对应的虚拟场景,让AI在所有可能的意图排列组合中接受高强度的「特训」。

这带来了一个根本性的差异。

人类开车时,通常只能对其他交通参与者做「最大似然估计」——觉得最有可能发生什么,就按什么反应。

但小马的AI司机拥有比人类长得多的上下文记忆能力,这是AI的天赋。它不需要靠「直觉」这种玄乎的东西,而是可以同时Keep in mind所有可能的意图组合,再进行综合决策。

系统可以自动回溯每一次决策,精准定位偏差究竟出在哪一层。

这些数据在真实世界中是无法被收集的,毕竟,谁会告诉你他刚才打方向盘的时候到底在想些啥啊。

当AI补全了这块长期的数据空缺,模型的自我诊断能力,无疑将迎来质的飞跃。

这直接带来了第二个核心突破:定向进化。

以前想提升世界模型的精度,路子很野,叫「广撒网」。

全无人车队到处跑,数据全量回传,然后指望工程师凭经验去「沙里淘金」。

但车队规模一旦从百辆冲到千辆,这招就不灵了。绝大多数数据对提升精度没啥用,只会变成昂贵的存储垃圾,白白烧钱。

PonyWorld世界模型2.0彻底反转了这个逻辑。

当系统自我诊断发现模型在某个场景下「心里没底」——比如某几个路口每到傍晚逆光时,模型对特定障碍物的模拟置信度就开始跳水——它会自动生成一个定向采集任务,直接给测试团队派单:

请在未来一周内,于下午4:30-5:30之间,在指定路口重点采集逆光条件下非机动车与行人混行场景数据。

随后,研发人员、测试工程师、运营团队……整个组织开始围绕世界模型2.0的「精度需求」运转。AI说哪里差点意思,人类就去补哪块数据。

人类工程师的角色,从手握教鞭的「驾校教练」,变成了听命行事的「AI数据采集员」。

研发节奏不再由人类经验驱动,而是由AI根据自身进化需求,自动生成。

值得注意的是,这里有个前提:

即便是做「AI的数据采集员」,也极度考验人类对AI的驾驭能力。

人类并没有完全退出Loop(AI进化的闭环流程),只是角色变了。

未来,怎么驾驭AI这匹脱缰的野马,既让它按自己的意志行动,又能保留它自我演进的能力,将是人才最需要具备的特质。

而对小马来说,同样可以预见的未来是:

接入2.0的自我诊断和定向进化能力后,无疑会给小马智行已有的「飞轮」,再狠狠踩一脚油门。

而核心燃料,正是L4全无人车队在真实交通中运营产生的数据。

AI会遇到人类司机不容易遇到的场景。

Scroll for more