苹果AI平台技术负责人回深圳具身创业量子位
一家刚完成10亿元A轮融资的具身公司,是这么定义具身标准数据格式的:
Object Trajectory。
说人话,就是用连续3D点云去刻画物体在时间维度上的变化过程。
如此一来,需要关注的焦点就从“机器人怎么动”,变成了“物体本身发生了什么变化,包括位置移动、姿态变化,以及在复杂操作中的接触关系甚至形变过程”。
在这个逻辑下,作为一种统一的物体级状态表示,Object Trajectory就被定义为了“具身智能的token”。
创始人兼CEO说,Object这个词本身有“物体”和“目标”两种意思,所以能用它精确描述机器人本体跟物体要发生什么样的交互、要完成什么样的物体运动状态的变化
他还介绍了提出这一“具身token”的原因。
RoboScience认为,具身智能真正缺的不是动作数据,而是一种能同时表达认知与物理执行的中间语言,“需要一种能够同时覆盖认知过程与物理执行过程的中间表达,而Object Trajectory就是这个中间层”。
感觉……这家公司想做的事情大概是,先把世界压缩成“物体级动态状态”,再去做执行。
忘了展开介绍,这家公司叫RoboScience,成立于2024年。
CEO田野本科毕业于中国科学技术大学物理系(专业第一),硕士毕业于斯坦福大学AI Lab,师从AI大牛吴恩达。
2017年硕士毕业后,他加入苹果总部,在苹果工作了约7年时间,后来成为苹果总部最年轻的主任工程师之一,并担任AI平台技术负责人。
在苹果期间,他主导构建了苹果的机器学习平台,支撑了相机、Siri、Apple Intelligence等。
首席科学家邵林为新加坡国立大学计算机系助理教授,师从图灵奖得主、斯坦福计算机科学系讲席教授Leonidas J. Guibas(与Sedgewic共同发明红黑树)和斯坦福机器人实验室的核心负责人之一Jeannette Bohg。
其团队获ICRA 2025最佳论文奖,又在ICRA 2026获最佳论文奖提名。
上个月(5月),这家公司对外披露了10亿元A轮融资,是该月该赛道上曝光的最大一笔。
Object Trajectory有啥用?
从RoboScience的技术框架出发,Object Trajectory对应的是具身token的定义,也对应模型处理世界的基本单位。
创始人兼CEO田野在线下技术分享中谈到,当前具身系统面临的两个主要问题,一个来自机器人本体结构差异,另一个来自物体交互过程中的物理规律表达。
这两个问题通常被分别处理,然后在新的表示方式中被收敛到同一空间。
但RoboScience希望自己做出来的具身世界模型和硬件解耦,不能通过模仿学习跟硬件强绑定(事实上也确实这么做了)。
So,Object Trajectory出现了。
主打起到一个提供统一空间的表达方式的作用。
它的作用首先体现在对任务的重新整理上。
无论是抓取、叠衣服还是家具拼装,在这一表示方式下都会被转写成同一种结构问题,即物体从初始状态到目标状态的变化过程。
其次是对差异性的处理方式发生变化。
一般来说,机器人本体差异、物体类型差异、任务差异通常分别建模。
而有了Object Trajectory,这三类差异会被压缩进同一个表示空间中处理,系统不再依赖具体硬件结构或任务模板。
也就是说机器人本体差异被从建模层移出,进入执行层处理。
第三个变化来自学习对象本身。
田野表示,“你人去拿也可以,夹爪去拿也可以,这些都不重要”,系统关注的是物体发生的变化过程。
此“点云”非彼“点云”
虽然叫做点云,但Object Trajectory涉及的“点云”是一种数学层面的抽象表征,与深度相机直接采集到的点云数据并不一一对应。


