Yann LeCun的世界模型路线图：14篇论文PaperWeekly

Yann LeCun一直在走一条与主流大语言模型截然不同的路。当行业焦点集中在模型参数规模的暴力扩展时，他将研究重心完全放在了世界模型上。

过去几周，V-JEPA 2.1、LeWorldModel 和 ThinkJEPA 等论文相继发布。

面对主流自回归模型在物理常识和多步规划上的局限，JEPA（联合嵌入预测架构）给出了另一种思路：彻底放弃底层的像素重建，直接在抽象的特征空间中预测未来状态。

这 14 篇关键论文，正是这套架构从理论走向现实的完整记录。

系统从处理单一的静态图像起步，逐步跨越视频与三维几何，最终接入动作变量，构建出一个具备端到端推演和规划能力的完整框架。

核心机制概述

〓目标驱动的系统架构

〓 JEPA 工作原理

阶段一：从理论到图像验证

I-JEPA：视觉领域的首次落地

I-JEPA（Image-based JEPA）[2] 是将理论转化为工程实现的关键节点。

一个轻量级的预测器接收上下文特征以及对应的掩码 token，在隐空间中预测目标块的表征。整个过程通过最小化预测值与真实目标值之间的 L2 距离来驱动。

〓 I-JEPA 方法流程图

阶段二：走向动态与跨模态