他凭什么拿到高瓴们的1亿美元?虎嗅网

7/1/2026

世界模型是属于00后的任务。在具身智能、世界模型行业,我们已经看到了太多00后和“天才少年”。而今天我们聊的这个团队,也几乎全部由00后组成,他们也是当下估值最高的AI圈00后团队之一。

00后陈博远今年刚从北大元培毕业,他另一个身份是逆矩阵创始人。

2026年初,尚未毕业的陈博远创立了逆矩阵,首轮即获得高瓴和北大系基金超千万美元投资,到今天,这家公司即将完成新一轮过亿美元融资,估值超50亿元人民币。

这也是“00后创立的AI公司”中,估值最高的公司之一。

“大家都希望看到年轻人在AI时代下做出一些不一样的创新突破。”陈博远对虎嗅说道

陈博远的团队在做的事情是“通用世界基座模型”,他们的英文名字叫Physis。Physis(φύσις)是physics(物理)的希腊词根,通常译为“自然”,其更本源的词义是“生长、生成”——指向回到自然与物理的本源去理解世界如何运转。

故事回溯到逆矩阵还未成立的时候,陈博远还是北大元培学生期间便已崭露头角,当时,他就已经凭借强化学习和大模型的研究获得ACL最佳论文;与此同时,那一届ACL中,内地另外一篇最佳论文则来自DeepSeek团队。从某种意义上讲,这个团队曾经还和DeepSeek“并肩”过。

关于通用世界基座模型,经常有投资人提出质疑。在陈博远看来,“基模”这个概念如今放在行业似乎被误解了。

“投资人在听到‘基模’这个词的时候,会天然有一些偏见。因为他们见过很多团队只是拿开源模型,用部分数据做微调,最后包装成一个预训练故事。但实际上,我们是从头开始搭建整个预训练架构。”陈博远对虎嗅解释道。

而在融资速度上,逆矩阵并不算这个行业里最激进的一批公司。“我们不急着融资,而是希望踏实做技术第一性的突破。”陈博远告诉虎嗅。

而这也是他与智源研究院结缘的原因。虎嗅获悉,陈博远已于4月16日正式以逆矩阵创始人的身份,担任智源研究院行为世界模型创新中心负责人,直接向智源研究院院长王仲远汇报。

2025年11月,虎嗅曾与王仲远有过一次对话。当时他告诉虎嗅,智源没有太强的组织层级;相比商业化,研究始终是更核心的事情。但在具身智能时代,智源同样会背负一种使命——去成为一个类似Deepmind的角色。

目前,我们看到的大模型明星公司中,已经有相当一部分与智源研究院存在关联,包括银河通用、智谱AI、月之暗面和面壁智能。其中,前三家公司估值均已超过百亿元,智谱AI已完成上市。

行为世界模型创新中心是智源研究院专门设立的前沿创新中心,用于支持下一代通用世界基座模型的研发与创新,承担更大规模、更系统的前沿攻坚。陈博远以逆矩阵创始人的身份,兼任这一中心的负责人,聚焦通用世界基座模型最底层的探索与前沿试验,并将已经验证的世界模型能力放大到更通用、更大规模的场景里去落地。两个角色彼此赋能、互为支撑,推动同一件事:让AI真正理解物理规律。技术愿景是统一的,凝聚共同的力量去逼近同一个目标。

近期,虎嗅与逆矩阵创始人陈博远进行了深入对话。我们谈到了通用世界基座模型与垂类世界模型的概念、区别与联系;世界模型目前存在的卡点,以及世界基座模型如何解决具身智能所缺失的数据问题;当然,也包括这个平均年龄00后的团队本身。

以下为虎嗅和陈博远的精选对话:

“世界模型一定会迎来自己的GPT-3时刻”

虎嗅:你们做的是通用世界基座模型。但现在行业里,很多公司都在讲“世界模型”,而且每家的定义都不太一样。所以我想知道,逆矩阵现在做的这个“通用世界基座模型”,核心到底是什么?背后的行业洞察又是什么?为什么你们会选择做这件事?

陈博远:我觉得这个问题非常关键。现在行业里几乎anything is a worldmodel(一切皆是世界模型),所有人都在讲世界模型。但我认为,世界模型今天其实还处于一个“百家争鸣”的阶段。我们更想回到第一性原理去看这件事。

过去几年,大语言模型让AI学会了处理文本和知识,但AI未来一定会从虚拟世界走向真实的物理世界。无论是游戏物理,还是工业产线,本质上都处在一个连续、不确定、且受到复杂物理约束的环境里。

在这个过程中,AI不仅要理解文字,还需要真正理解重力、接触、因果等物理规律,它们其实共享同一个底层事实:对于物理一致性和物理正确性的要求,是硬约束。

同时,一个场景里学到的物理规律,本身也是可以迁移的。物理定律不会因为场景变化而改变。

所以我们的核心判断是:未来一定会出现一个能够跨场景迁移的通用物理世界模型,它会成为AI走向物理世界的基础设施。

现在行业里的很多世界模型关注于解决特定场景的问题。有人做3D世界模型,有人做游戏世界模型,也有人做具身世界模型。但我们更强调的是,不同垂类场景背后的物理规律,其实是通用的。

就像今天的大语言模型,可以同时处理金融、法律、代码等不同任务。我们也希望未来存在一个通用的世界基座模型,再基于它去适配不同下游场景。

虎嗅:那么,通用世界基座模型和“世界模型”本身,它们的区别和联系是什么?以及为什么你一定要强调“基座”这两个字?

陈博远:我觉得可以类比自动驾驶。自动驾驶会有L0到L5的分级。L0到L2,本质上还是需要大量人工干预;而L3以上,其实代表的是一个自主性能力的阶跃,不只是技术能力变化,也意味着应用市场的扩大。

世界模型其实也会存在类似的W0到W5体系。现在行业里很多所谓的世界模型,本质上还停留在W0或者W1阶段。

比如OpenAI在Sora时期提出“世界模拟器”概念,很多视频生成模型,本质上是在学习世界的连贯表征,生成流畅、好看的视频;再比如谷歌的Genie3这类可交互世界模型,它已经能够响应动作交互,但本质上还是偏“游戏世界”。这类模型更多解决的是影视、游戏等内容生成问题。

但物理AI不只是游戏,也不只是影视。真正的严肃工业场景、具身智能、物理仿真、交互世界、科学预测科技计算、工业仿真、工业安全验证,面对的是大量复杂物理约束,它需要的是W2+模型。

W2最核心的特征,就是“真正懂物理”。所以我们强调“通用世界基座模型”,首先它必须是一个W2+模型;其次,它不只是解决某一个垂类场景,而是希望用同一套物理规律,去解决不同物理场景的问题。

今天很多行业已经有领域专用的世界模型,比如自动驾驶世界模型。但它们往往只能解决单一场景的问题。

而我们回到第一性原理会发现,很多物理规律其实天然是通用的。它既是one for all,也是all for one。

不同物理场景的数据和学习过程,本质上遵循的是同一套物理范式,所以不同场景之间其实能够互相增强。最终,我们希望用一个统一的通用世界基座模型,在不同垂类场景里,达到比领域专用模型更好的效果。

如果继续往下划分:

W2解决的是“物理专业性”;

W3解决的是“跨领域能力”;

W4才是真正意义上的通用泛化。

这其实有点像大语言模型的发展过程。

2023、2024年的时候,行业里还会强调金融大模型、法律大模型这些垂类模型;但随着通用大模型能力提升,很多任务开始被统一,zero-shot、few-shot就能泛化解决。

我们认为,物理世界未来也会走向同样的路径。

虎嗅:有人认为世界模型更接近ScalingLaw这条路线,也有人坚持做VLA。所以你觉得今天世界模型最大的卡点是什么?以及你们现在做的通用世界基座模型,卡点又是什么?

陈博远:我觉得这是一个特别关键的问题。

我们其实非常认可Scaling Law背后的底层逻辑。大语言模型之所以成功,本质上是因为它符合第一性原理,比如nexttoken prediction这种非常简单、统一的目标。随着数据量、模型规模提升,它就能不断压缩语言里的智能。

但世界模型没办法简单复用“大语言模型那套路径”,原因有三个。

第一个是数据问题。互联网文本可以无限爬取,但物理交互数据不一样。真正的物理数据,要么来自真实世界采集,要么来自仿真构建,它不是一个能无限堆积的数据体系。

第二个问题是,像素不等于物理。今天很多世界模型还是建立在视频、图像这些视觉输入上,但视频里90%的信息其实是纹理、光照、运动模糊,这些东西和物理规律本身没关系,反而会成为模型学习物理的负担。模型花了大量参数去拟合“光长什么样”,但这并不是核心矛盾。

第三个问题,也是最核心的问题:相关性不等于因果性。大语言模型本质上是一种“观察式学习”。你见过越多数据,就越容易学习相关性。但物理世界真正重要的是因果。

所以仅靠观察,模型学到的是统计相关性,而不是真正的物理因果。因此,我们认为通用世界基座模型一定会走一条新的Scaling路径。真正的Scaling,不应该发生在token空间或者像素空间,而应该发生在“物理隐空间”。

也就是说,我们需要模型学习一种更加抽象的物理表征。这有点像人类的大脑。比如我们看到一个杯子快倒了,会自然预测水可能怎么洒出来。这个过程,本质上就是一种高维物理隐空间里的推演。

第二个关键点,是必须原生引入Action。因为物理理解本身来自交互,而不仅仅是观察。比如你不去搬一个东西,就无法真正理解它的重量;不去掰一个物体,就无法理解它的刚性。所以世界模型不能只是“看世界”,它必须“和世界交互”。

模型需要学习的是:“在当前状态下,我采取动作A,会导致什么物理状态;采取动作B,又会导致什么结果。”也就是从“nexttoken prediction”,转向“next physical state prediction”。

第三个关键点,是验证。为什么数学、代码、围棋这些领域能快速提升?因为它们可验证。强化学习之所以有效,本质上就是因为存在明确奖励信号。而物理世界其实同样是可验证的。

比如物体不会凭空消失、不会违反光滑性约束,这些都可以被验证。

所以我们认为,强化学习会是学习物理规律最高效的方法。最终,我们的路径其实是一个闭环:在物理隐空间里做压缩;原生引入动作交互;再通过强化学习完成验证。

我们内部已经观察到这样一条曲线存在:随着数据规模、模型参数量提升,当模型开始引入Action和强化学习之后,它在预测“下一个物理状态”时,泛化误差会持续下降,甚至开始出现类似“涌现”的能力。

所以我一直认为,世界模型未来一定会迎来自己的“GPT-3时刻”。

但这个时刻,不会是某个Benchmark刷榜。而是当模型真正能够随着算力、数据和交互规模提升,在真实物理世界里持续提升能力的时候。那才是世界模型真正属于自己的ScalingLaw。

“世界基座模型不需要太多的真机数据”

虎嗅:现在行业里很多人都会觉得,具身智能真正有效的数据其实并不多。那我刚刚听下来,通用世界基座模型对于数据的要求可能会更高一些。你们到底需要什么样的数据?它和VLA、传统世界模型所需要的数据有什么区别?

陈博远:现在很多人也在做自己的具身世界模型,它们主要依赖真机数据,微调机器人的动作输入输出,从而实现控制能力。

但对于通用世界基座模型来说,真机数据固然重要,但它不是唯一的数据来源。

我可以做一个类比。人类学习数学的时候,也不是一开始就学微积分,而是先学1+1=2,再学平面坐标系,最后才进入更复杂的体系。

物理规律的学习其实也是一样,它存在一个“从易到难”的过程。比如仿真引擎、游戏引擎、虚幻引擎里的数据,虽然场景不同,但背后很多物理规则其实是共通的。无论是《荒野大镖客》还是《塞尔达》,一个击打动作背后,本质上都是人类手写的简化物理规则。

这些规则可能只是真实物理世界50%或者70%的映射,但它能够成为学习真实物理规律的铺垫。所以我们第一件事,就是建立一个从仿真到真实世界的数据跃迁过程。

第二个关键点,是跨领域数据。因为对于通用世界基座模型来说,它本质上是一个“all forone”的问题。不同场景背后反映的真实物理规律其实是一致的。

我们内部发现,当引入跨场景数据之后,在某一个垂类场景里,数据需求量甚至能够降低20倍,但效果反而更好。因为模型学到的是更通用的物理规律,而不是某个特定硬件、本体或者场景里的“伪规律”。如果只依赖单一场景数据,其实很容易过拟合。

第三个关键点,是长尾物理数据。物理规律很多时候恰恰发生在稀疏和突变场景里。比如YouTube、B站每天会产生大量视频,但其中真正包含物理交互的数据比例其实非常低。可能只有5%的视频包含抓取、拿取等简单交互,而像玻璃破碎、爆炸这种强物理变化场景,可能只有0.5%。

但恰恰是这些“突变”,最能体现真实物理规律。

所以我们在做预训练时,会重点筛选那些具有动态交互属性的视频,而不是简单堆数据量。

同时,我们也在构建自己的数据飞轮。比如通过仿真引擎、数字孪生渲染,主动生成一些现实世界里很难采集到的强物理数据。举个例子,一个杯子放在桌子上,被外力撞倒——这种场景在真实世界里很难大规模采集,但我们可以在仿真环境里不断生成。这些稀疏、边缘、强物理属性的数据,其实对通用世界基座模型非常重要。

Scroll for more