LeCun:关于大模型的下一步Datawhale
Yann LeCun 大家一定不陌生——图灵奖得主、CNN 之父、深度学习三巨头之一。
他的观点散落在各种访谈和推文里,零碎又常被断章取义。所以这次,我们把 LeCun 的判断系统梳理了一遍,连成一条线,看看在他眼里,LLM 接下来该往哪走。
这篇是 Datawhale DIY-LLM 开源项目的拓展篇,带你看看大模型这条路本身能走多远。 文章有点长,大家可以慢慢读~
项目地址:https://github.com/datawhalechina/diy-llm
1. LLM不是终点,但不会消失。它会长期作为"语言与知识接口层"存在,是智能系统的"语言皮层",而非完整大脑。
2. "下一词元预测 + 规模化"很难通向通用智能。核心缺口是两个:预测行动后果的能力,以及基于搜索的多步规划。
3. VLA在当前范式下已接近失败。LeCun直接判断"VLA pretty much seen as a failure",核心原因是可靠性不足、数据依赖过重、泛化脆弱。
4. 世界模型的关键不是"画出世界",而是"在抽象表征空间预测可控后果"。水瓶类比精准揭示了像素级预测的无效性。
5. JEPA的价值在于把学习目标从重建细节转向可预测的语义状态;其成败关键在于防止表示坍缩。当前最有前景的路径是SIGReg方向。
6. LLM本质上不安全,且这一问题在当前范式下无法根本修复。目标驱动AI(Objective-Driven AI)才是安全可控智能体的正确架构方向。
7. 开源生态最终会赢得平台战争。Tapestry联邦训练机制是LeCun对主权AI问题的工程回应。
8. 未来更可能是双系统分工:LLM负责语言与知识交互,世界模型负责理解物理世界与规划行动。
一、为什么LLM不是终点?
LeCun的观点从一开始就很明确:LLM本身并没有问题。 它们已经成为许多实用AI产品的基础设施,我们每天都在使用这些系统,包括他自己也在使用。但他认为,LLM的成功并不意味着它们就是通向通用智能(AGI)的正确路径。
这一判断与许多相信“大规模语言模型持续扩展能够逐步逼近通用智能”的研究者存在明显分歧,其中包括部分来自Google和OpenAI等研究人员。
在LeCun看来,单纯依靠下一词预测和大规模语言建模,并不足以产生类人级智能,甚至难以达到许多动物所具备的那种智能水平——即理解世界、预测行动后果以及进行长期规划的能力。因此,LLM是一种极其成功且有价值的技术,但更像是未来智能系统中的一个重要组件,而非最终答案。
读到这里,你可能已经想反驳了:"LLM明明能推导数学公式、能解释物理定律、甚至能辅助科研——这难道不算'智能'?"
这个反驳非常合理,也是整个争论的核心所在。LeCun并不否认LLM的表现令人印象深刻,但他认为"表现好"和"真正智能"之间存在一个关键的“裂缝”——而正是这道”裂缝“,决定了LLM能走多远。
这道”裂缝“究竟在哪里?我们在第2小节展开分析。
1.1 有意义但不是正确的路线
为什么说路线本身可能是错的? 考虑一个简单的日常场景:“我需要洗车,洗车店离我家100米远。我应该走路去吗?”
图 1 ChatGPT-5.5的回复
GPT-5.5的回答(图1)建议走路去,理由是100米很近、省油省折腾——整个回答听起来头头是道,却将'车必须被开进洗车店'这一最基本的物理前提降格为边缘性的例外。它解决的是一个不存在的问题。
对于我们来说,这个问题几乎不需要思考:你要洗的是车,车必须被开到洗车店才能洗,所以答案是开车去。
但不少的LLM会抓住”100米很近”这一表层线索,建议你”步行“——它在做token级别的预测,而没有理解”洗车需要把车带到现场”这一隐含的物理约束。
这个例子虽然简单,却暴露了LLM的结构性盲区:它缺乏对真实世界物理约束的内在建模能力。但是,这并非我们通常所说的”幻觉”(hallucination)问题,而这里的问题更深层:模型缺少”物理世界中的事物如何相互作用”的内部表征,它只能在语言符号的统计规律中寻找答案。
幻觉通常指模型编造不存在的事实,例如虚构论文、错误引用或捏造数据等问题。
从LeCun等研究者的视角来看,目前的一些改进(比如tool调用、Prompt改进等方法)本质上仍是在现有框架下不断优化模型的表现,而不是改变模型学习和理解世界的方式。就像是给汽车换上更好的轮胎和更强的发动机一样,它们确实能让LLM跑得更快、更稳、更远,但汽车原本的工作原理并没有发生改变。同样,这些方法能提升LLM的表现能力,却无法解决一个更根本的问题:LLM学到的主要仍然是语言符号之间的统计规律,而不是现实世界的运行规律。
一些研究者也注意到了这一问题,开始尝试通过多模态训练来突破纯文本学习的限制。一方面,主要是让模型同时学习文本、图像、视频甚至音频,希望它能够从这些数据中接触到更多关于现实世界的信息,而不仅仅是人类对世界的文字描述;另一方面,近期在高质量文本数据逐渐成为稀缺资源的背景下,多模态数据也被视为新的训练来源。
然而,在LeCun等研究者看来,问题的核心并不只是数据量是否充足,而在于模型是否能够从这些数据中学习到世界的结构、因果关系以及行动后果。即使拥有更多模态的数据,如果训练目标仍然只是预测观测数据本身,也未必能够形成真正意义上的世界模型。
那么,为什么会认为这是一个架构层面的问题,而不仅仅是模型规模还不够大、数据还不够多、数据模态有限的问题呢?要回答这一点,我们需要先思考一个更基础的问题:LLM为什么会如此强大,而让LLM变得强大的,会不会也是限制其本身的?
1.2 LLM为什么会成功?
LeCun认为,LLM能在语言任务上取得巨大成功,一个关键原因在于语言本身是由有限数量的离散token组成的。
这意味着模型的预测目标非常具体:给定已有的文本,从固定大小的词表中预测下一个token的概率分布。这个目标是可计算的,损失函数也是明确的。
在训练过程中,LLM通过阅读海量文本,学习token之间的统计关系和结构模式。LLM十分擅长解决规则明确、可客观验证的领域——数学答案可以代入检验,代码可以直接运行,这让模型在训练时能获得清晰准确的反馈信号,从而被更有效地纠偏和强化。然而,表现出色并不等于真正理解。模型更可能是通过反复见过大量相似模式,习得了一种模式化的解题能力,而非真正理解了数学规律或代码逻辑。就像一个做了十万道例题的学生,解题很厉害,但如果你问他"为什么这个方法成立",他可能说不清楚。一句话总结就是:“知道怎么做 ≠ 理解为什么"。
那么,LLM是如何通过训练泛化到解决不同类型问题的?
LLM本质上是一个巨大的神经网络。预训练阶段,通过反复的前向传播与反向传播梯度更新,将数据中的统计规律逐渐编码进权重空间。而中训练、后训练等阶段,则主要是在这个基础上调整模型的输出分布——让它更符合人类期望的回答风格、价值取向或特定任务需求。
打个比方:预训练像是在一块空地上建造了一座拥有海量藏书的图书馆;而后训练则更像是培训图书馆员,让其知道该怎么回答读者的问题、哪些话该说哪些话不该说——书的内容基本不变,改变的是服务方式。
一些研究发现,LLM在生成回答时,还能够通过链式推理(CoT)或结合显式搜索机制(如MCTS)等方法,表现出一定的推理路径搜索能力。提到搜索能力,这虽很容易让人联想到AlphaGo Zero,但二者之间存在一个根本性的限制值得注意:
为什么不能直接把AlphaGo Zero的方法复刻到LLM上?
AlphaGo Zero的核心优势在于:有明确且可执行的围棋规则作为环境,每一步都能获得真实反馈,最终胜负可以明确验证决策质量,并通过自博弈不断优化策略,整个过程完全不依赖人类棋谱。
而LLM面对的大多数现实任务,根本不存在这样清晰的规则、状态转移和反馈信号。即使引入搜索机制,也很难稳定判断哪条推理路径是"正确的"——这是两者难以直接类比的根本原因。
总结来看,LLM的成功建立在两个支柱上:大规模高质量的人类文本数据,以及通过反向传播不断优化权重的训练机制——模型正是在这个过程中,学会了借助统计规律泛化到各类问题的解法。
然而,这一成功路径本身也埋下了它的限制。自OpenAI提出Scaling Law以及DeepMind的进一步完善以来,业界形成了一个主流共识:模型规模越大、数据越多,能力就越强。既然成功高度依赖数据,那当数据本身开始触及上限,这条路还能走多远?
1.3 规模化或已触及天花板
LeCun分析LLM的发展瓶颈时指出,高质量的人类文本数据正在逐渐接近极限。虽然互联网每天仍在持续产生新的内容,但真正适合训练前沿大型语言模型(LLM)的高质量公开文本并不是无限的。
根据Epoch AI的估算,目前可用于训练的大规模高质量公开人类文本数据约为300万亿Token,其95%置信区间约为100万亿至1000万亿Token。研究者进一步指出,如果未来模型继续采用“过训练”策略,即使用更多数据来提高推理阶段效率,那么高质量公开文本库存甚至可能更早被充分利用。


