英伟达All in的物理AI路线，中国黑马提前一年新智元

当全球具身智能行业还在争论技术路线时，一家中国公司已经率先定义并跑通了自己的答案。深度机智提出的「人类学习」路线——以人类数据为起点、动作建模为中心、机器人为 AI 而生——正在被英伟达、Physical Intelligence 等海外头部机构沿同一方向跟进。成立仅一年，数据、模型、本体、场景全线落地，核心布局节奏领先美国同类项目近一年。

具身智能行业眼下最大的不确定性，在路线层面。

过去两年，行业在 VLA 端到端、仿真训练、遥操作三条路线上各有押注，每家都在大量投入，但谁也不确定哪条能走到终点。

数据从哪来、模型学什么、机器人怎么造——不同团队给出的答案截然不同。

而路线一旦选错，前期积累的数据、模型和硬件可能全部推倒重来。

在这个赛道，路线选择的权重，可能超过任何单点技术的突破。

2024 年 11 月，深度机智（DeepCybo）创始人陈凯在行业内率先提出了「人类学习」原创技术路线。

这条路线的野心远不止于换一种数据采集方式——它试图以人类认知和行为模式为蓝本，重新组织具身智能的整个技术栈：数据怎么采、模型怎么训、机器人怎么造，三者围绕同一套逻辑协同设计。

短短一年多时间内，英伟达 GR00T 体系、Physical Intelligence π 系列、Generalist AI GEN-1 陆续沿相似方向布局。

全球头部机构正在验证同一个判断——而深度机智是最早做出这个判断、并且最早完成全栈落地的团队。

一条路线：源于人，超越人

理解深度机智，首先要区分两件事：「用人类数据训练机器人」是一种技术手段，「人类学习」是一套完整的技术范式。

前者只解决数据来源问题，后者重新定义了数据、模型和硬件三者之间的关系。

当前具身智能的数据困境，是理解这条路线价值的起点。

训练大语言模型时，互联网上有数万亿 Token 的现成文本可直接使用。

机器人没有这样的数据矿藏——人怎么拿杯子、开抽屉、打鸡蛋，这些动作每天发生无数次，却从未被系统性数字化。

主流的遥操作采集产能极低，一人一机一天不过几小时有效数据；

仿真数据成本低但存在 Sim2Real Gap，到了真实环境性能大幅折损。

深度机智的选择是直接从人类日常操作中采集第一视角数据。

但这只是路线的第一层，更关键的是后面两层：

模型要能从人类视频中提取出物理常识、空间结构和交互规律，再「翻译」成机器人可执行的动作指令——这要求模型具备深层的物理世界理解能力；

而机器人本体也要为此专门设计，比例和自由度贴近人体，以最大化人类数据的迁移效率。

2025 年 10 月，深度机智发布《源于人超越人》通用具身智能路线图，将这套逻辑概括为三位一体战略：Human-Centric Data（人类数据为起点）、Action-Centric Modeling（动作建模为中心）、Robot for AI（机器人为 AI 而生）。

三者协同设计，构成一条完整的技术范式，而非三个独立模块的简单拼接。

全栈落地：数据、模型、本体三线并进

路线图的说服力在于落地速度。

深度机智成立仅一年，已完成数据、模型、本体三条线的全栈技术落地，核心布局节奏领先美国同类项目近一年。

数据是物理 AI 迭代的核心燃料。深度机智从硬件、范式、数据集三个维度，搭建了完整的第一视角数据基建体系。

深度机智自研的分体式第一视角感知采集方案，早在去年 6 月就完成定型落地，布局节奏领先美国 Scale AI 同类同质方案近一年。

比数据规模更关键的是数据范式。

首创 ICDC 情境数采范式，在真实场景中记录人与世界交互的时空经验，并通过自动化的数据转化管道，将真实世界中的人类行为转化为可被模型学习的时空经验。