楼天城：Harness是这个时代最关键的能力量子位

Harness（驯马）会成为这个（AI）时代最关键的能力之一。

这是小马智行CTO楼天城，在与量子位的对话中，给出的最新判断。

在他看来，如今的AI越来越像一匹脱缰野马。它开始学会了「调用」：调用工具、调用skills……因此能通过这些脚手架，自我演进，和人类打配合。

主动性和能量大幅提升，未来甚至连人类，都可能成为被「调用」的一环。

楼教主表示，当「AI司机」也和Coding Agent一样学会了使用工具，人类工程师的角色，会逐渐从「教练」转变为「执行者」。

这种情况下——

人和AI的关系，必须重新思考了。

这也是小马智行发布PonyWorld世界模型2.0的根本原因。

自动驾驶，即将进入一个AI主导、AI评测、并「调用」人类协助的新时代。

这个趋势是确定的，毕竟，人类想要赶上模型的迭代速度，太难了。

连强悍如楼教主这样的工程师都坦言：

开发的主导权，会逐步交给AI。

是的，一个顶尖的人类程序员，此刻却在宣告：即便是天之骄子般的工程师，也必须将研发的主导权拱手相让。

听起来多少有些残酷。

但这就是教主楼天城和小马智行10年创业历程里，目前为止最直接的结论。开发时代的范式，正在发生方向性的质变。

关于这个问题，或许可以用楼天城在访谈中反复提及的一个词回答——

被技术瓶颈所迫，被消费者的期望所迫，被自动驾驶的终局所迫，被小马智行十年来始终渴望实现的蓝图所迫。

而这个被逼出来的模型，叫作PonyWorld世界模型2.0。

这是一场自动驾驶开发范式革命中，必须被倒逼出来的一次投影。

而且随这种趋势打开的还有小马智行的2.0时代，以自动驾驶出发的PonyAI，现在已经到了开启更大空间探索的时刻，通往物理AGI的道路已经被打开。

以及，楼教主的观点是：我们已经在路上了。

PonyWorld世界模型2.0深度解析

人类驾驶数据的价值，正在逐步归零。

并非思维实验。这个曾经看似遥远的未来，如今已成为小马智行一切技术研发的出发点。

当AI司机的安全性全面超越人类，再让人类工程师手把手教AI开车，无异于让业余棋手去辅导AlphaGo。

虽然从行业发展角度来看是件可喜可贺的事，但回想2020年，难免不有些让人唏嘘。

那基本是「模仿学习」的时代。无论自动驾驶还是人工驾驶，核心都是为了收集海量数据，让系统去模仿人的行为。

整个行业都在用影子模式收集海量人类驾驶数据，试图大力出奇迹。

但奇迹没有来。

模仿学习的天花板，就是人类本身。

而L4级自动驾驶是无法靠人类兜底的，这个几乎零容错的终局要求，远比「像人一样开车」严苛得多。

这也是2020年PonyWorld世界模型1.0启动的契机。

他们想给机器一个超越人的空间。通过创造一个虚拟驾校，让机器在里面自己摸索怎么开车，做强化学习。

不过，随着能力的进一步跃升，另一个尴尬的问题随之浮现。

当AI驾驶能力已经远超人类时，人类给AI的指导，很可能是错的……

一旦AI超过了人，人其实已经失去了评判权。因为我们无法再判断谁更好、谁更差。

在这种情况下，只有AI自己，能穷尽人类所不能察觉的维度，精准定位到底哪里出了问题。

也就是说，让AI来识别并指导AI。

这是AI时代的「图灵测试」。

基于这个理念，小马对1.0进行了一次开发范式的全面重构，带来了PonyWorld世界模型2.0。

人类不再是这个闭环的中心，AI，正式成为总教练。

自我诊断，是这套系统进化的核心引擎。

目前行业里大热的VLA（视觉-语言-动作）路线，核心逻辑是在感知与动作之间硬塞进一个语言模型——让AI先把路况「翻译」成文字，再基于文字生成动作。

但语言，本质上是对复杂4D物理时空的一种极度降维的「扁平投影」。虽然它提升了信息的传播效率，却不可避免地丢弃了大量珍贵的物理世界上下文。

这种架构，从诞生的那一刻起，就注定了它的上限。

为此，小马智行选择跳过「语言」这个中间商，让传感器数据直接映射为驾驶动作。

这不仅大幅削减了算力消耗，更让物理数据的收集与世界模型精度的提升变得前所未有的高效。

但这并不意味着放弃了「可解释性」和「语义推理」。

小马在车端模型的训练中，引入了一个比语言更接近驾驶本质的中间层——Intention（意图）语义层。

真正的老司机在紧急避险时，脑海里绝不会先默念一段台词。

「前方有障碍物，我要向左打方向……」等把这些可能性都在脑海里推理一遍，黄花菜都凉了。

面对瞬息万变的路况，人类高手是直接产生「意图」。

这正是PonyWorld世界模型2.0想要复刻的本能。

模型在做出每一个驾驶动作的同时，其内部会同步生成结构化的意图表达。翻译成人类能懂的语言，就是：

我选择在路口前减速等待，是因为右前方那个行人正在走向斑马线，我预判他大概率会横穿。

请注意，这些意图信息不是事后用另一个模型「解释」出来的，也不是推理过程中额外插入的累赘，而是在训练阶段就与驾驶动作被联合学习的原生能力。

而当这个意图层被解锁时，将会带来一个此前鲜被讨论的杀手锏：

它可以被无限生成。

世界模型本身就是生成模型，我们可以基于意图去反向生成任何意图组合对应的虚拟场景，让AI在所有可能的意图排列组合中接受高强度的「特训」。

这带来了一个根本性的差异。

人类开车时，通常只能对其他交通参与者做「最大似然估计」——觉得最有可能发生什么，就按什么反应。

但小马的AI司机拥有比人类长得多的上下文记忆能力，这是AI的天赋。它不需要靠「直觉」这种玄乎的东西，而是可以同时Keep in mind所有可能的意图组合，再进行综合决策。

系统可以自动回溯每一次决策，精准定位偏差究竟出在哪一层。

这些数据在真实世界中是无法被收集的，毕竟，谁会告诉你他刚才打方向盘的时候到底在想些啥啊。

当AI补全了这块长期的数据空缺，模型的自我诊断能力，无疑将迎来质的飞跃。

这直接带来了第二个核心突破：定向进化。

以前想提升世界模型的精度，路子很野，叫「广撒网」。

全无人车队到处跑，数据全量回传，然后指望工程师凭经验去「沙里淘金」。

但车队规模一旦从百辆冲到千辆，这招就不灵了。绝大多数数据对提升精度没啥用，只会变成昂贵的存储垃圾，白白烧钱。

PonyWorld世界模型2.0彻底反转了这个逻辑。

当系统自我诊断发现模型在某个场景下「心里没底」——比如某几个路口每到傍晚逆光时，模型对特定障碍物的模拟置信度就开始跳水——它会自动生成一个定向采集任务，直接给测试团队派单：

请在未来一周内，于下午4:30-5:30之间，在指定路口重点采集逆光条件下非机动车与行人混行场景数据。

随后，研发人员、测试工程师、运营团队……整个组织开始围绕世界模型2.0的「精度需求」运转。AI说哪里差点意思，人类就去补哪块数据。

人类工程师的角色，从手握教鞭的「驾校教练」，变成了听命行事的「AI数据采集员」。

研发节奏不再由人类经验驱动，而是由AI根据自身进化需求，自动生成。

值得注意的是，这里有个前提：

即便是做「AI的数据采集员」，也极度考验人类对AI的驾驭能力。

人类并没有完全退出Loop（AI进化的闭环流程），只是角色变了。

未来，怎么驾驭AI这匹脱缰的野马，既让它按自己的意志行动，又能保留它自我演进的能力，将是人才最需要具备的特质。

而对小马来说，同样可以预见的未来是：

接入2.0的自我诊断和定向进化能力后，无疑会给小马智行已有的「飞轮」，再狠狠踩一脚油门。

而核心燃料，正是L4全无人车队在真实交通中运营产生的数据。

AI会遇到人类司机不容易遇到的场景。