楼天城:Harness是这个时代最关键的能力量子位
Harness(驯马)会成为这个(AI)时代最关键的能力之一。
这是小马智行CTO楼天城,在与量子位的对话中,给出的最新判断。
在他看来,如今的AI越来越像一匹脱缰野马。它开始学会了「调用」:调用工具、调用skills……因此能通过这些脚手架,自我演进,和人类打配合。
主动性和能量大幅提升,未来甚至连人类,都可能成为被「调用」的一环。
楼教主表示,当「AI司机」也和Coding Agent一样学会了使用工具,人类工程师的角色,会逐渐从「教练」转变为「执行者」。
这种情况下——
人和AI的关系,必须重新思考了。
这也是小马智行发布PonyWorld世界模型2.0的根本原因。
自动驾驶,即将进入一个AI主导、AI评测、并「调用」人类协助的新时代。
这个趋势是确定的,毕竟,人类想要赶上模型的迭代速度,太难了。
连强悍如楼教主这样的工程师都坦言:
开发的主导权,会逐步交给AI。
是的,一个顶尖的人类程序员,此刻却在宣告:即便是天之骄子般的工程师,也必须将研发的主导权拱手相让。
听起来多少有些残酷。
但这就是教主楼天城和小马智行10年创业历程里,目前为止最直接的结论。开发时代的范式,正在发生方向性的质变。
关于这个问题,或许可以用楼天城在访谈中反复提及的一个词回答——
被技术瓶颈所迫,被消费者的期望所迫,被自动驾驶的终局所迫,被小马智行十年来始终渴望实现的蓝图所迫。
而这个被逼出来的模型,叫作PonyWorld世界模型2.0。
这是一场自动驾驶开发范式革命中,必须被倒逼出来的一次投影。
而且随这种趋势打开的还有小马智行的2.0时代,以自动驾驶出发的PonyAI,现在已经到了开启更大空间探索的时刻,通往物理AGI的道路已经被打开。
以及,楼教主的观点是:我们已经在路上了。
PonyWorld世界模型2.0深度解析
人类驾驶数据的价值,正在逐步归零。
并非思维实验。这个曾经看似遥远的未来,如今已成为小马智行一切技术研发的出发点。
当AI司机的安全性全面超越人类,再让人类工程师手把手教AI开车,无异于让业余棋手去辅导AlphaGo。
虽然从行业发展角度来看是件可喜可贺的事,但回想2020年,难免不有些让人唏嘘。
那基本是「模仿学习」的时代。无论自动驾驶还是人工驾驶,核心都是为了收集海量数据,让系统去模仿人的行为。
整个行业都在用影子模式收集海量人类驾驶数据,试图大力出奇迹。
但奇迹没有来。
模仿学习的天花板,就是人类本身。
而L4级自动驾驶是无法靠人类兜底的,这个几乎零容错的终局要求,远比「像人一样开车」严苛得多。
这也是2020年PonyWorld世界模型1.0启动的契机。
他们想给机器一个超越人的空间。通过创造一个虚拟驾校,让机器在里面自己摸索怎么开车,做强化学习。
不过,随着能力的进一步跃升,另一个尴尬的问题随之浮现。
当AI驾驶能力已经远超人类时,人类给AI的指导,很可能是错的……
一旦AI超过了人,人其实已经失去了评判权。因为我们无法再判断谁更好、谁更差。
在这种情况下,只有AI自己,能穷尽人类所不能察觉的维度,精准定位到底哪里出了问题。
也就是说,让AI来识别并指导AI。
这是AI时代的「图灵测试」。
基于这个理念,小马对1.0进行了一次开发范式的全面重构,带来了PonyWorld世界模型2.0。
人类不再是这个闭环的中心,AI,正式成为总教练。
自我诊断,是这套系统进化的核心引擎。
目前行业里大热的VLA(视觉-语言-动作)路线,核心逻辑是在感知与动作之间硬塞进一个语言模型——让AI先把路况「翻译」成文字,再基于文字生成动作。
但语言,本质上是对复杂4D物理时空的一种极度降维的「扁平投影」。虽然它提升了信息的传播效率,却不可避免地丢弃了大量珍贵的物理世界上下文。
这种架构,从诞生的那一刻起,就注定了它的上限。
为此,小马智行选择跳过「语言」这个中间商,让传感器数据直接映射为驾驶动作。
这不仅大幅削减了算力消耗,更让物理数据的收集与世界模型精度的提升变得前所未有的高效。
但这并不意味着放弃了「可解释性」和「语义推理」。
小马在车端模型的训练中,引入了一个比语言更接近驾驶本质的中间层——Intention(意图)语义层。
真正的老司机在紧急避险时,脑海里绝不会先默念一段台词。
「前方有障碍物,我要向左打方向……」等把这些可能性都在脑海里推理一遍,黄花菜都凉了。
面对瞬息万变的路况,人类高手是直接产生「意图」。
这正是PonyWorld世界模型2.0想要复刻的本能。
模型在做出每一个驾驶动作的同时,其内部会同步生成结构化的意图表达。翻译成人类能懂的语言,就是:
我选择在路口前减速等待,是因为右前方那个行人正在走向斑马线,我预判他大概率会横穿。
请注意,这些意图信息不是事后用另一个模型「解释」出来的,也不是推理过程中额外插入的累赘,而是在训练阶段就与驾驶动作被联合学习的原生能力。
而当这个意图层被解锁时,将会带来一个此前鲜被讨论的杀手锏:
它可以被无限生成。
世界模型本身就是生成模型,我们可以基于意图去反向生成任何意图组合对应的虚拟场景,让AI在所有可能的意图排列组合中接受高强度的「特训」。
这带来了一个根本性的差异。
人类开车时,通常只能对其他交通参与者做「最大似然估计」——觉得最有可能发生什么,就按什么反应。
但小马的AI司机拥有比人类长得多的上下文记忆能力,这是AI的天赋。它不需要靠「直觉」这种玄乎的东西,而是可以同时Keep in mind所有可能的意图组合,再进行综合决策。
系统可以自动回溯每一次决策,精准定位偏差究竟出在哪一层。
这些数据在真实世界中是无法被收集的,毕竟,谁会告诉你他刚才打方向盘的时候到底在想些啥啊。
当AI补全了这块长期的数据空缺,模型的自我诊断能力,无疑将迎来质的飞跃。
这直接带来了第二个核心突破:定向进化。
以前想提升世界模型的精度,路子很野,叫「广撒网」。
全无人车队到处跑,数据全量回传,然后指望工程师凭经验去「沙里淘金」。
但车队规模一旦从百辆冲到千辆,这招就不灵了。绝大多数数据对提升精度没啥用,只会变成昂贵的存储垃圾,白白烧钱。
PonyWorld世界模型2.0彻底反转了这个逻辑。
当系统自我诊断发现模型在某个场景下「心里没底」——比如某几个路口每到傍晚逆光时,模型对特定障碍物的模拟置信度就开始跳水——它会自动生成一个定向采集任务,直接给测试团队派单:
请在未来一周内,于下午4:30-5:30之间,在指定路口重点采集逆光条件下非机动车与行人混行场景数据。
随后,研发人员、测试工程师、运营团队……整个组织开始围绕世界模型2.0的「精度需求」运转。AI说哪里差点意思,人类就去补哪块数据。
人类工程师的角色,从手握教鞭的「驾校教练」,变成了听命行事的「AI数据采集员」。
研发节奏不再由人类经验驱动,而是由AI根据自身进化需求,自动生成。
值得注意的是,这里有个前提:
即便是做「AI的数据采集员」,也极度考验人类对AI的驾驭能力。
人类并没有完全退出Loop(AI进化的闭环流程),只是角色变了。
未来,怎么驾驭AI这匹脱缰的野马,既让它按自己的意志行动,又能保留它自我演进的能力,将是人才最需要具备的特质。
而对小马来说,同样可以预见的未来是:
接入2.0的自我诊断和定向进化能力后,无疑会给小马智行已有的「飞轮」,再狠狠踩一脚油门。
而核心燃料,正是L4全无人车队在真实交通中运营产生的数据。
AI会遇到人类司机不容易遇到的场景。


