哈佛Yilun Du专访：世界模型三问智源社区

强化学习智能体在像素环境中可实现游戏高分刷新，但关键线索隐匿时即陷入决策困境；生成模型虽能生成光影逼真场景，却无法解析 “积木倾塌” 背后的基础物理逻辑。

人工智能对真实世界的认知，受限于以 “理解” 为核心的 “世界模型” 门槛。

如今任职于哈佛大学Kempner 研究所与计算机科学系的助理教授Yilun Du正是该领域的核心探索者之一。凭借 MIT 博士毕业的扎实理论基础，他一直以来致力于通过生成式人工智能构建具备推理与规划能力的世界模型。他开创了用生成模型进行决策规划的新范式，并提出基于可组合性和 “模型社会” 的下一代世界模型蓝图。

OpenAI、FAIR、DeepMind 等诸多全球顶尖 AI 实验室，都留下过他的研究足迹。这些经历，让他对行业前沿动态有了多维度的深刻洞察。

与此同时，Yilun Du也始终坚持着能量基模型（EBMs）的研究方向，为破解世界模型困境提供了关键思路。他早年聚焦能量景观学习，提出通过建模数据能量分布捕捉事物本质。这一突破为 2020 年扩散模型迭代埋下伏笔，也成了可组合生成建模的重要理论基石。他认为，EBMs 能超越传统模型的浅层拟合，挖掘底层能量逻辑，与世界模型的需求高度契合。就像孩子靠积木凹凸拼接、堆叠平衡的基本逻辑，能搭出城堡、桥梁等无数造型，Yilun Du 认为，复杂世界的运行也遵循着简洁深刻的底层规则。

若能构建可灵活组合、动态适配这些规则的模型，就能突破训练数据局限，触达数据集中从未出现过的新场景。而打开世界模型的 “理解之门”，还需跨越三座关键关卡：当前模型缺乏因果性与物理规律、需支持良好规划和要能泛化到未见过的事物。