4年12篇核心突破——LeCun重构AI表征学习?深蓝AI

1/11/2026

「读懂LeCun的“世界模型”」

AI的“世界认知”能力,正在被JEPA改写?

时至今日,“自监督学习”仍是AI领域的核心赛道,而LeCun团队主推的JEPA(联合嵌入预测架构),无疑是近两年最具颠覆性的技术方向——它跳出生成式重建、对比式学习的传统框架,用“潜空间预测”为AI搭建起理解世界的全新路径。

从图像到视频,从语言到机器人,JEPA正在快速渗透多模态领域,成为通用AI的“表征引擎”。它的崛起并非偶然,而是LeCun团队对“AI如何高效学习世界模型”这一核心问题的持续探索。

本文将梳理2022–2026年JEPA的关键突破与技术演进,看这套架构如何从实验室的理论草图,逐步成长为横跨多模态、赋能机器人规划的通用范式。

JEPA为什么能颠覆传统?

JEPA,全称Joint Embedding Predictive Architecture,即联合嵌入预测架构,其核心使命与传统自监督方法截然不同:放弃像素/Token级重建,专注于抽象表征空间的预测学习。

你可以把它理解为——传统AI学习“复刻细节”(比如生成相似图片、预测下一个词),而JEPA学习“把握本质”:给模型一段上下文信息,让它预测缺失部分的抽象特征,迫使模型理解数据的内在规律、动态逻辑与语义关联。

这种设计的优势显而易见:摆脱对数据增强的依赖、避免表征坍缩、高效学习可预测、可操控的世界模型,而这些正是通向通用AI的关键。从视觉理解到语言建模,从语音处理到机器人规划,只要涉及“从数据中提炼核心规律”,JEPA都能发挥核心作用。

接下来,我们将以年度为轴,拆解JEPA如何从早期探索,逐步覆盖多模态、落地真实场景。

JEPA的逐年进化路径

2022:JEPA初现——离线场景的首次验证

JEPA 的核心架构思路由杨立昆于 2022 年 6 月在《A Path Towards Autonomous Machine Intelligence》中正式提出,而 LeCun 团队于 NeurIPS 2022 发表的短篇研究 ¹(arXiv:2211.10831),是 JEPA 提出后首批实证验证工作。

该研究在 “移动点 + 干扰背景” 的简单环境中,聚焦无奖励、全离线场景,对比了搭配 VICReg、SimCLR 目标的 JEPA 与重建式、逆动力学建模等方法的性能。结果显示:当干扰噪声逐帧变化时,JEPA 表现持平甚至优于重建式方法,但在固定噪声下会因聚焦 “慢特征”(静态干扰)而忽略目标 —— 这一发现既验证了 JEPA “重建无关” 设计的可行性,也明确了其早期短板,为后续 HJEPA(层次化 JEPA)等优化方向提供了关键依据。

这一阶段的工作虽偏向基础验证,但为 JEPA 从理论框架走向实际落地提供了重要的实证支撑。

2023:理论奠基与图像落地——I-JEPA与H-JEPA的双重突破

2023年是JEPA的“范式确立年”,两篇核心论文分别从理论与工程层面,为JEPA搭建起完整框架。

年初,ICCV论文I-JEPA²(arXiv:2301.08243)横空出世,成为图像JEPA的奠基之作。它提出了 JEPA 的经典设计范式:用 “大尺度语义目标块 + 空间分布式上下文块”,从单张图像中预测缺失块的表征,彻底摆脱对数据增强的依赖。基于 ViT-Huge/14 训练,I-JEPA 在 ImageNet 下游任务中表现优异,不仅线性探测、半监督学习等任务性能超越同期方法,还以更少训练 epochs 实现更高效率,充分证明了 JEPA 在视觉表征学习中的潜力。该项工作因此被CVPR2023接收。

年中,LeCun团队发表H-JEPA综述³(arXiv:2306.02572),为JEPA构建了统一理论框架。论文将能量模型、潜变量模型与JEPA结合,提出“分层联合嵌入预测架构”,明确JEPA的核心目标是学习“抽象、可预测、可操控”的世界模型——这篇综述堪称JEPA的“理论纲领”,为后续所有变种(V-JEPA/LLM-JEPA)提供了底层逻辑支撑。

至此,JEPA完成了“理论+工程”的双重闭环,正式从学术概念走向可复用的技术框架。

2024:视频拓展与泛化升级——V-JEPA开启动态表征学习

在图像领域验证可行性后,JEPA的探索重点转向动态场景——视频表征学习。2024年的V-JEPA⁴(arXiv:2404.08471)成为这一方向的里程碑。

V-JEPA首次实现“纯视频自监督学习”:不依赖图像预训练、文本辅助或负样本,仅用200万段视频训练,通过预测跨帧特征表征,同时掌握“外观内容”与“运动动态”。其最大模型ViT-H/16在Kinetics-400(81.9%)、ImageNet1K(77.9%)等图像/视频任务中同步达到SOTA,证明JEPA能高效捕捉时序与空间双重信息。

Scroll for more