Yann LeCun的世界模型路线图:14篇论文PaperWeekly

4/1/2026

Yann LeCun一直在走一条与主流大语言模型截然不同的路。当行业焦点集中在模型参数规模的暴力扩展时,他将研究重心完全放在了世界模型上。

过去几周,V-JEPA 2.1、LeWorldModel 和 ThinkJEPA 等论文相继发布。

面对主流自回归模型在物理常识和多步规划上的局限,JEPA(联合嵌入预测架构)给出了另一种思路:彻底放弃底层的像素重建,直接在抽象的特征空间中预测未来状态。

这 14 篇关键论文,正是这套架构从理论走向现实的完整记录。

系统从处理单一的静态图像起步,逐步跨越视频与三维几何,最终接入动作变量,构建出一个具备端到端推演和规划能力的完整框架。

核心机制概述

〓 目标驱动的系统架构

〓 JEPA 工作原理

阶段一:从理论到图像验证

I-JEPA:视觉领域的首次落地

I-JEPA(Image-based JEPA)[2] 是将理论转化为工程实现的关键节点。

一个轻量级的预测器接收上下文特征以及对应的掩码 token,在隐空间中预测目标块的表征。整个过程通过最小化预测值与真实目标值之间的 L2 距离来驱动。

〓 I-JEPA 方法流程图

阶段二:走向动态与跨模态

Scroll for more