英伟达All in的物理AI路线,中国黑马提前一年新智元
当全球具身智能行业还在争论技术路线时,一家中国公司已经率先定义并跑通了自己的答案。深度机智提出的「人类学习」路线——以人类数据为起点、动作建模为中心、机器人为 AI 而生——正在被英伟达、Physical Intelligence 等海外头部机构沿同一方向跟进。成立仅一年,数据、模型、本体、场景全线落地,核心布局节奏领先美国同类项目近一年。
具身智能行业眼下最大的不确定性,在路线层面。
过去两年,行业在 VLA 端到端、仿真训练、遥操作三条路线上各有押注,每家都在大量投入,但谁也不确定哪条能走到终点。
数据从哪来、模型学什么、机器人怎么造——不同团队给出的答案截然不同。
而路线一旦选错,前期积累的数据、模型和硬件可能全部推倒重来。
在这个赛道,路线选择的权重,可能超过任何单点技术的突破。
2024 年 11 月,深度机智(DeepCybo)创始人陈凯在行业内率先提出了「人类学习」原创技术路线。
这条路线的野心远不止于换一种数据采集方式——它试图以人类认知和行为模式为蓝本,重新组织具身智能的整个技术栈:数据怎么采、模型怎么训、机器人怎么造,三者围绕同一套逻辑协同设计。
短短一年多时间内,英伟达 GR00T 体系、Physical Intelligence π 系列、Generalist AI GEN-1 陆续沿相似方向布局。
全球头部机构正在验证同一个判断——而深度机智是最早做出这个判断、并且最早完成全栈落地的团队。
一条路线:源于人,超越人
理解深度机智,首先要区分两件事:「用人类数据训练机器人」是一种技术手段,「人类学习」是一套完整的技术范式。
前者只解决数据来源问题,后者重新定义了数据、模型和硬件三者之间的关系。
当前具身智能的数据困境,是理解这条路线价值的起点。
训练大语言模型时,互联网上有数万亿 Token 的现成文本可直接使用。
机器人没有这样的数据矿藏——人怎么拿杯子、开抽屉、打鸡蛋,这些动作每天发生无数次,却从未被系统性数字化。
主流的遥操作采集产能极低,一人一机一天不过几小时有效数据;
仿真数据成本低但存在 Sim2Real Gap,到了真实环境性能大幅折损。
深度机智的选择是直接从人类日常操作中采集第一视角数据。
但这只是路线的第一层,更关键的是后面两层:
模型要能从人类视频中提取出物理常识、空间结构和交互规律,再「翻译」成机器人可执行的动作指令——这要求模型具备深层的物理世界理解能力;
而机器人本体也要为此专门设计,比例和自由度贴近人体,以最大化人类数据的迁移效率。
2025 年 10 月,深度机智发布《源于人 超越人》通用具身智能路线图,将这套逻辑概括为三位一体战略:Human-Centric Data(人类数据为起点)、Action-Centric Modeling(动作建模为中心)、Robot for AI(机器人为 AI 而生)。
三者协同设计,构成一条完整的技术范式,而非三个独立模块的简单拼接。
全栈落地:数据、模型、本体三线并进
路线图的说服力在于落地速度。
深度机智成立仅一年,已完成数据、模型、本体三条线的全栈技术落地,核心布局节奏领先美国同类项目近一年。
数据是物理 AI 迭代的核心燃料。深度机智从硬件、范式、数据集三个维度,搭建了完整的第一视角数据基建体系。
深度机智自研的分体式第一视角感知采集方案,早在去年 6 月就完成定型落地,布局节奏领先美国 Scale AI 同类同质方案近一年。
比数据规模更关键的是数据范式。
首创 ICDC 情境数采范式,在真实场景中记录人与世界交互的时空经验,并通过自动化的数据转化管道,将真实世界中的人类行为转化为可被模型学习的时空经验。


