他凭什么拿到高瓴们的1亿美元？虎嗅网

世界模型是属于00后的任务。在具身智能、世界模型行业，我们已经看到了太多00后和“天才少年”。而今天我们聊的这个团队，也几乎全部由00后组成，他们也是当下估值最高的AI圈00后团队之一。

00后陈博远今年刚从北大元培毕业，他另一个身份是逆矩阵创始人。

2026年初，尚未毕业的陈博远创立了逆矩阵，首轮即获得高瓴和北大系基金超千万美元投资，到今天，这家公司即将完成新一轮过亿美元融资，估值超50亿元人民币。

这也是“00后创立的AI公司”中，估值最高的公司之一。

“大家都希望看到年轻人在AI时代下做出一些不一样的创新突破。”陈博远对虎嗅说道

陈博远的团队在做的事情是“通用世界基座模型”，他们的英文名字叫Physis。Physis（φύσις）是physics（物理）的希腊词根，通常译为“自然”，其更本源的词义是“生长、生成”——指向回到自然与物理的本源去理解世界如何运转。

故事回溯到逆矩阵还未成立的时候，陈博远还是北大元培学生期间便已崭露头角，当时，他就已经凭借强化学习和大模型的研究获得ACL最佳论文；与此同时，那一届ACL中，内地另外一篇最佳论文则来自DeepSeek团队。从某种意义上讲，这个团队曾经还和DeepSeek“并肩”过。

关于通用世界基座模型，经常有投资人提出质疑。在陈博远看来，“基模”这个概念如今放在行业似乎被误解了。

“投资人在听到‘基模’这个词的时候，会天然有一些偏见。因为他们见过很多团队只是拿开源模型，用部分数据做微调，最后包装成一个预训练故事。但实际上，我们是从头开始搭建整个预训练架构。”陈博远对虎嗅解释道。

而在融资速度上，逆矩阵并不算这个行业里最激进的一批公司。“我们不急着融资，而是希望踏实做技术第一性的突破。”陈博远告诉虎嗅。

而这也是他与智源研究院结缘的原因。虎嗅获悉，陈博远已于4月16日正式以逆矩阵创始人的身份，担任智源研究院行为世界模型创新中心负责人，直接向智源研究院院长王仲远汇报。

2025年11月，虎嗅曾与王仲远有过一次对话。当时他告诉虎嗅，智源没有太强的组织层级；相比商业化，研究始终是更核心的事情。但在具身智能时代，智源同样会背负一种使命——去成为一个类似Deepmind的角色。

目前，我们看到的大模型明星公司中，已经有相当一部分与智源研究院存在关联，包括银河通用、智谱AI、月之暗面和面壁智能。其中，前三家公司估值均已超过百亿元，智谱AI已完成上市。

行为世界模型创新中心是智源研究院专门设立的前沿创新中心，用于支持下一代通用世界基座模型的研发与创新，承担更大规模、更系统的前沿攻坚。陈博远以逆矩阵创始人的身份，兼任这一中心的负责人，聚焦通用世界基座模型最底层的探索与前沿试验，并将已经验证的世界模型能力放大到更通用、更大规模的场景里去落地。两个角色彼此赋能、互为支撑，推动同一件事：让AI真正理解物理规律。技术愿景是统一的，凝聚共同的力量去逼近同一个目标。

近期，虎嗅与逆矩阵创始人陈博远进行了深入对话。我们谈到了通用世界基座模型与垂类世界模型的概念、区别与联系；世界模型目前存在的卡点，以及世界基座模型如何解决具身智能所缺失的数据问题；当然，也包括这个平均年龄00后的团队本身。

以下为虎嗅和陈博远的精选对话：

“世界模型一定会迎来自己的GPT-3时刻”

虎嗅：你们做的是通用世界基座模型。但现在行业里，很多公司都在讲“世界模型”，而且每家的定义都不太一样。所以我想知道，逆矩阵现在做的这个“通用世界基座模型”，核心到底是什么？背后的行业洞察又是什么？为什么你们会选择做这件事？

陈博远：我觉得这个问题非常关键。现在行业里几乎anything is a worldmodel（一切皆是世界模型），所有人都在讲世界模型。但我认为，世界模型今天其实还处于一个“百家争鸣”的阶段。我们更想回到第一性原理去看这件事。

过去几年，大语言模型让AI学会了处理文本和知识，但AI未来一定会从虚拟世界走向真实的物理世界。无论是游戏物理，还是工业产线，本质上都处在一个连续、不确定、且受到复杂物理约束的环境里。

在这个过程中，AI不仅要理解文字，还需要真正理解重力、接触、因果等物理规律，它们其实共享同一个底层事实：对于物理一致性和物理正确性的要求，是硬约束。

同时，一个场景里学到的物理规律，本身也是可以迁移的。物理定律不会因为场景变化而改变。

所以我们的核心判断是：未来一定会出现一个能够跨场景迁移的通用物理世界模型，它会成为AI走向物理世界的基础设施。

现在行业里的很多世界模型关注于解决特定场景的问题。有人做3D世界模型，有人做游戏世界模型，也有人做具身世界模型。但我们更强调的是，不同垂类场景背后的物理规律，其实是通用的。

就像今天的大语言模型，可以同时处理金融、法律、代码等不同任务。我们也希望未来存在一个通用的世界基座模型，再基于它去适配不同下游场景。

虎嗅：那么，通用世界基座模型和“世界模型”本身，它们的区别和联系是什么？以及为什么你一定要强调“基座”这两个字？

陈博远：我觉得可以类比自动驾驶。自动驾驶会有L0到L5的分级。L0到L2，本质上还是需要大量人工干预；而L3以上，其实代表的是一个自主性能力的阶跃，不只是技术能力变化，也意味着应用市场的扩大。

世界模型其实也会存在类似的W0到W5体系。现在行业里很多所谓的世界模型，本质上还停留在W0或者W1阶段。

比如OpenAI在Sora时期提出“世界模拟器”概念，很多视频生成模型，本质上是在学习世界的连贯表征，生成流畅、好看的视频；再比如谷歌的Genie3这类可交互世界模型，它已经能够响应动作交互，但本质上还是偏“游戏世界”。这类模型更多解决的是影视、游戏等内容生成问题。

但物理AI不只是游戏，也不只是影视。真正的严肃工业场景、具身智能、物理仿真、交互世界、科学预测科技计算、工业仿真、工业安全验证，面对的是大量复杂物理约束，它需要的是W2+模型。

W2最核心的特征，就是“真正懂物理”。所以我们强调“通用世界基座模型”，首先它必须是一个W2+模型；其次，它不只是解决某一个垂类场景，而是希望用同一套物理规律，去解决不同物理场景的问题。

今天很多行业已经有领域专用的世界模型，比如自动驾驶世界模型。但它们往往只能解决单一场景的问题。

而我们回到第一性原理会发现，很多物理规律其实天然是通用的。它既是one for all，也是all for one。

不同物理场景的数据和学习过程，本质上遵循的是同一套物理范式，所以不同场景之间其实能够互相增强。最终，我们希望用一个统一的通用世界基座模型，在不同垂类场景里，达到比领域专用模型更好的效果。

如果继续往下划分：

W2解决的是“物理专业性”；

W3解决的是“跨领域能力”；

W4才是真正意义上的通用泛化。

这其实有点像大语言模型的发展过程。

2023、2024年的时候，行业里还会强调金融大模型、法律大模型这些垂类模型；但随着通用大模型能力提升，很多任务开始被统一，zero-shot、few-shot就能泛化解决。

我们认为，物理世界未来也会走向同样的路径。

虎嗅：有人认为世界模型更接近ScalingLaw这条路线，也有人坚持做VLA。所以你觉得今天世界模型最大的卡点是什么？以及你们现在做的通用世界基座模型，卡点又是什么？

陈博远：我觉得这是一个特别关键的问题。

我们其实非常认可Scaling Law背后的底层逻辑。大语言模型之所以成功，本质上是因为它符合第一性原理，比如nexttoken prediction这种非常简单、统一的目标。随着数据量、模型规模提升，它就能不断压缩语言里的智能。

但世界模型没办法简单复用“大语言模型那套路径”，原因有三个。

第一个是数据问题。互联网文本可以无限爬取，但物理交互数据不一样。真正的物理数据，要么来自真实世界采集，要么来自仿真构建，它不是一个能无限堆积的数据体系。

第二个问题是，像素不等于物理。今天很多世界模型还是建立在视频、图像这些视觉输入上，但视频里90%的信息其实是纹理、光照、运动模糊，这些东西和物理规律本身没关系，反而会成为模型学习物理的负担。模型花了大量参数去拟合“光长什么样”，但这并不是核心矛盾。

第三个问题，也是最核心的问题：相关性不等于因果性。大语言模型本质上是一种“观察式学习”。你见过越多数据，就越容易学习相关性。但物理世界真正重要的是因果。

所以仅靠观察，模型学到的是统计相关性，而不是真正的物理因果。因此，我们认为通用世界基座模型一定会走一条新的Scaling路径。真正的Scaling，不应该发生在token空间或者像素空间，而应该发生在“物理隐空间”。

也就是说，我们需要模型学习一种更加抽象的物理表征。这有点像人类的大脑。比如我们看到一个杯子快倒了，会自然预测水可能怎么洒出来。这个过程，本质上就是一种高维物理隐空间里的推演。

第二个关键点，是必须原生引入Action。因为物理理解本身来自交互，而不仅仅是观察。比如你不去搬一个东西，就无法真正理解它的重量；不去掰一个物体，就无法理解它的刚性。所以世界模型不能只是“看世界”，它必须“和世界交互”。

模型需要学习的是：“在当前状态下，我采取动作A，会导致什么物理状态；采取动作B，又会导致什么结果。”也就是从“nexttoken prediction”，转向“next physical state prediction”。

第三个关键点，是验证。为什么数学、代码、围棋这些领域能快速提升？因为它们可验证。强化学习之所以有效，本质上就是因为存在明确奖励信号。而物理世界其实同样是可验证的。

比如物体不会凭空消失、不会违反光滑性约束，这些都可以被验证。

所以我们认为，强化学习会是学习物理规律最高效的方法。最终，我们的路径其实是一个闭环：在物理隐空间里做压缩；原生引入动作交互；再通过强化学习完成验证。

我们内部已经观察到这样一条曲线存在：随着数据规模、模型参数量提升，当模型开始引入Action和强化学习之后，它在预测“下一个物理状态”时，泛化误差会持续下降，甚至开始出现类似“涌现”的能力。

所以我一直认为，世界模型未来一定会迎来自己的“GPT-3时刻”。

但这个时刻，不会是某个Benchmark刷榜。而是当模型真正能够随着算力、数据和交互规模提升，在真实物理世界里持续提升能力的时候。那才是世界模型真正属于自己的ScalingLaw。

“世界基座模型不需要太多的真机数据”

虎嗅：现在行业里很多人都会觉得，具身智能真正有效的数据其实并不多。那我刚刚听下来，通用世界基座模型对于数据的要求可能会更高一些。你们到底需要什么样的数据？它和VLA、传统世界模型所需要的数据有什么区别？

陈博远：现在很多人也在做自己的具身世界模型，它们主要依赖真机数据，微调机器人的动作输入输出，从而实现控制能力。

但对于通用世界基座模型来说，真机数据固然重要，但它不是唯一的数据来源。

我可以做一个类比。人类学习数学的时候，也不是一开始就学微积分，而是先学1+1=2，再学平面坐标系，最后才进入更复杂的体系。

物理规律的学习其实也是一样，它存在一个“从易到难”的过程。比如仿真引擎、游戏引擎、虚幻引擎里的数据，虽然场景不同，但背后很多物理规则其实是共通的。无论是《荒野大镖客》还是《塞尔达》，一个击打动作背后，本质上都是人类手写的简化物理规则。

这些规则可能只是真实物理世界50%或者70%的映射，但它能够成为学习真实物理规律的铺垫。所以我们第一件事，就是建立一个从仿真到真实世界的数据跃迁过程。

第二个关键点，是跨领域数据。因为对于通用世界基座模型来说，它本质上是一个“all forone”的问题。不同场景背后反映的真实物理规律其实是一致的。

我们内部发现，当引入跨场景数据之后，在某一个垂类场景里，数据需求量甚至能够降低20倍，但效果反而更好。因为模型学到的是更通用的物理规律，而不是某个特定硬件、本体或者场景里的“伪规律”。如果只依赖单一场景数据，其实很容易过拟合。

第三个关键点，是长尾物理数据。物理规律很多时候恰恰发生在稀疏和突变场景里。比如YouTube、B站每天会产生大量视频，但其中真正包含物理交互的数据比例其实非常低。可能只有5%的视频包含抓取、拿取等简单交互，而像玻璃破碎、爆炸这种强物理变化场景，可能只有0.5%。

但恰恰是这些“突变”，最能体现真实物理规律。

所以我们在做预训练时，会重点筛选那些具有动态交互属性的视频，而不是简单堆数据量。

同时，我们也在构建自己的数据飞轮。比如通过仿真引擎、数字孪生渲染，主动生成一些现实世界里很难采集到的强物理数据。举个例子，一个杯子放在桌子上，被外力撞倒——这种场景在真实世界里很难大规模采集，但我们可以在仿真环境里不断生成。这些稀疏、边缘、强物理属性的数据，其实对通用世界基座模型非常重要。