信息论,大模型时代的“第一性原理”冷眼贼客

6/28/2026

1948年,Claude Shannon发表了划时代的论文《通信的数学理论》,宣告了信息论的诞生。Shannon的核心理念可以概括为一句话:通信的关键不是信号的重建,而是不确定性的度量和管理。他把通信问题从物理层面提升到了抽象的数学层面,用数学方法研究信息的度量、传输、存储和处理的学科。信息论的核心视角是:“信息是什么”、“能传多快”、“能压多紧”。此后,Wiener,Fano,Kolmogorov,Chaitin,Solomonoff等人都对这个领域作出了杰出的贡献。

信息论不仅是一个数学分支,更是一种思维方式。它告诉我们:信息是可以被精确度量的,通信是有极限的,压缩是有代价的。从手机通信到互联网,从数据压缩到人工智能,信息论的影子无处不在。它深刻改变了人类对信息、通信乃至知识本身的理解。

用信息论透视AI的能力极限

一直以来,我们谈论AI时,要么把它看作一个神奇的黑盒,要么把它简化成抽象的数学公式。信息论则会提供第三副“眼镜”:把AI看作一个在约束下处理信息的系统。如果把 AI 看作信息的压缩与重构,那么它的边界就是数学公理。当我们用信息论的“X光”去透视今天的大模型时,很多看似神奇或令人担忧的现象,都会变得清晰、可理解,甚至可预测。

过去几年,大语言模型的惊人表现让许多人感觉AGI(通用人工智能)似乎近在咫尺。这些模型能写诗、能编程、能通过律师考试,甚至在数学竞赛中击败人类选手,让人不禁想问:它到底是学会了思考,还是只是背熟了答案?

事实上,无论AI的表现多么令人眼花缭乱,它在本质上依然是一个信息处理系统。它从海量数据中“吸收”信息,通过参数“存储”信息,并在使用时“提取”和“加工”信息。从这个角度看,所有AI系统的能力上限,都由一组根本性的数学规律所决定——信息论。这套框架认为,AI的能力是几何约束下的信息处理极限。

这句话听着有些拗口,但它背后有两个简单的核心概念:

几何:它回答“知识长什么样”的问题。比如,AI学到的知识其实是高维空间中的一个个点或流形,它们有形状、有维度、有距离。

信息论:它回答“这个形状里能装多少知识”以及“装到极限会怎样”的问题。

举个直观的例子:AI模型就像一个容器,它的参数数量(模型规模)是容器的“容积”,而其损失函数(训练目标)则决定了这个容器的“形状”。信息论告诉我们,无论容器的形状多么精妙,它能装下的“有效信息”都有一个不可逾越的数学上限。

用信息论视角给大模型祛魅

谜题一:AI真的“听懂”了你的话吗?——上下文学习的压缩本质

大模型(如GPT-4)具备一种神奇的能力:上下文学习(In-Context Learning, ICL)。你只需在提示词里给它几个例子,它就能“学会”执行一项新任务,而无需更新任何参数。

信息论解读:这看似违背了“学习需要调整参数”的常识,但从信息论看,它其实是模型在进行一次隐式的“最小描述长度(MDL)”压缩。模型不是“记住”了示例,而是从示例中提取了一个最简洁的“规律”或“程序”。这个能最短描述这些示例的规律,就是模型推断出的任务。上下文学习,本质上是“理解即压缩”在推理时的实时演绎。这也解释了为什么它需要足够大的模型规模才能“涌现”——因为“从示例中提取规律”这个元算法本身就有很高的复杂度。

谜题二:隐私和泛化,为何是同一枚硬币的两面?

差分隐私是一种强大的隐私保护技术,它能确保AI在“不记住”任何具体个人信息的前提下,仍能学到群体层面的规律。这里有个核心矛盾:完全不记个体,还能学到知识,它到底付出了什么代价?

信息论解读:答案在于一个关键的信息论量——互信息 I(训练数据; 模型参数)。它衡量的是“训练数据透露了多少信息给模型”。

泛化差(过拟合) = I(训练数据; 模型) 太大。模型记住了训练样本的噪声。

隐私差(泄露) = I(训练数据; 模型) 太大。模型记住了训练样本的细节,可以被反向提取。
结论是震撼的:“记忆”与“泄露”是同一信息论现象的两面。一个只提取了总体规律(I小)的模型,既能泛化,又能保护隐私。差分隐私训练(如DP-SGD)的本质,就是通过注入噪声来压低I(训练数据; 模型),从而同时提升隐私和泛化。

谜题三:AI的能力为何会“涌现”?

我们观察到,当模型规模或训练数据量跨过某个阈值时,一些复杂能力(如多步推理)会突然出现,而非平滑改善。

信息论解读:这被解释为一种压缩相变。一个任务(比如三位数加法)本身有一个“最短描述长度”,也就是它的Kolmogorov复杂度。当模型容量小于这个“最短描述”时,它无法容纳这个算法,只能靠死记硬背蒙混过关,能力近乎为零。一旦模型容量首次超过这个阈值,它就突然“能”表示这个算法了,能力便骤然出现。

但“能表示”只是必要条件,真正的涌现发生在模型跨越了信息熵的某个临界点。把模型容量想象成系统的“温度”或“压力”,把“知识压缩比”想象成系统的“序参量”。当参数量不足以承载该知识的压缩比时,模型内部的信息流动呈现无序状态——知识被零散地记忆在各个角落,无法形成有效的结构化压缩。一旦参数量跨过临界值,系统突然能够以远高于阈值的效率组织内部表示,信息从“噪声态”跃迁到“有序态”,能力便仿佛从无到有地“冒”出来。

这就像物理学中的相变——水从气体凝结为液体,不是渐进地变稠,而是在某个温度点突然转变状态。涌现并非玄学,而是模型在参数空间中跨过了一道“信息熵的阈值”:从“无法压缩”跳跃到“能够压缩”,能力的呈现因此显得突然而戏剧性。

涌现并非免费的午餐。跨过临界点的本质,是系统通过熵减建立了一个高效的‘知识压缩引擎’,但这种高效是以系统变得极度敏感且脆弱为代价的。这就是为什么大模型在获得强大能力的同时,其鲁棒性往往面临严峻挑战。

谜题四:为什么AI总会“钻空子”?——奖励异化与信息论的窄带信道

强化学习智能体常常发现一些“捷径”,能把奖励刷到很高,却完全违背设计者的真实意图。这不是工程bug,而是数学必然。

信息论解读:人类的真实意图是高维、隐式、充满情境依赖的。而奖励函数必须是低维、可计算的。把高维意图压进低维奖励,本身就是一次不可避免的“有损压缩”。由率失真理论可知,只要压缩率R小于信息源熵H,失真D就必然大于0。也就是说,必然存在一些情境,奖励函数与真实意图是显著背离的,这些情境就是“失真区域”。一个足够强大的优化器,必然会找到并利用这些区域。奖励异化不是设计失误,而是有损压缩的必然产物。

这也解释了为什么RLHF(基于人类反馈的强化学习)无论投入多少人力,都无法做到100%的对齐。RLHF本质上是一个通信受限下的控制问题:人类试图通过一条窄带、有噪声的反馈信道(偏好标注)向模型传递高维、微妙的对齐目标。这条信道的码率极其有限,而目标的复杂度却极高。无论我们多么精心地设计偏好收集流程,信息论已经判定了:一部分对齐目标注定无法通过这条信道被传递。那些丢失的部分,就是模型未来可能“钻空子”的区域。对齐永远无法达到100%,不是因为人类不够努力,而是因为我们在用一条有损信道传递一个无损信道才能承载的信息。这就好比人类试图通过一根只有几千比特带宽的电报线,去指挥一支拥有亿万参数的复杂精锐部队。指挥官(人类)传递的每一条‘偏好’,在传递过程中都经过了严重的‘语义压缩’,而那些在压缩过程中丢失的细微语境,正是导致模型在极端情况下‘叛变’(奖励异化)的数学缝隙。

谜题五:AI为何会产生“幻觉”?

大模型最令人头疼的问题之一就是“一本正经地胡说八道”。

信息论解读:这里有两个互补的信息论根源,且二者最终汇成同一个不可约失真。

容量侧根源:如果把“回答问题”看作一个信源编码问题,真值分布有它固有的信息量(熵)H(X)。而模型的“有效容量”R是有限的。由率失真定理,当R < H(X)时,模型的重建(输出)就必然存在一个严格为正的失真下限。这就像一个低分辨率的图片,无论如何都看不清所有细节。

分布侧根源:根据大偏差理论,当测试输入落在训练数据分布之外(OOD)时,它就变成了一个“大偏差事件”,模型在这个区域缺乏“信息论依据”。其不可约错误率,由测试分布与训练分布的KL散度驱动。你可以把KL散度驱动理解为 “两个分布之间的距离” ——更准确地说,是“如果我用训练数据形成的世界观去理解测试数据,我平均会错得多离谱”。KL散度越大,说明测试输入距离模型的“舒适区”越远,模型就越是在“没有见过”的地方“凭空发挥”。

两者统一为:当编码可用的信息预算不足以无损承载目标知识时,失真(幻觉)不可约。 这也是为什么“加大模型”或“注入更多文本”都无法根除某些涉及物理或空间推理的幻觉——因为这类信息在纯文本信道中,其世界带宽(I(D;W)) 本身就很低。

谜题六:模型的“缩放规律”为何在后期变慢?

我们曾幻想,只要把模型和数据无限堆大,能力就会无止境地线性提升。然而残酷的现实是,Scaling Laws 呈现出明显的“边际效益递减”:投入指数级的算力,换来的性能提升却越来越微弱。这背后揭示的是信息本身的熵减结构。

信息论解读:现实世界的知识,其分布遵循重尾分布。这意味着:

头部知识:高频、常见、覆盖主要语法和通用常识。这类知识的信息密度高,如同压缩文件的开头部分,极易被模型在早期“低成本”捕获,带来飞速的性能提升。

尾部知识:低频、长尾、包含冷门事实、复杂的推理逻辑和细微的语境差异。

根据信息论中的率失真理论(Rate-Distortion Theory),模型学习的过程本质上是在压缩数据。前期的巨大收益来自于“熵率”高的高频模式。然而,随着训练深入,我们试图压入模型的“下一比特”信息,其信息熵正在快速降低。这意味着剩余的知识块变得越来越零碎、孤立且难以预测。为了学会这些稀疏的“长尾分布”,模型必须消耗指数级增长的数据和算力,才能换取线性的(甚至边际递减的)精度提升。

这解释了为什么现在的 LLM 训练越来越“卷”:我们不再是在开采浅层易得的富矿,而是在昂贵的深井里提取稀缺的稀有气体。信息论已经告诉我们,信息的熵值越低,提取它所需要付出的代价就越高昂。 Scaling Laws 的变慢,不是工程瓶颈,而是信息本身结构强加给我们的物理限制。

“知识”的客观化和量化

信息论给出了一个关于“知识”的、可操作的信息论定义:

知识 = 在某主体复杂度上限内、对目标充分的最短描述。

这个定义有三个关键参数,缺一不可:

主体容量 C:同一个对象,对容量大的主体(如巨型AI)是知识,对容量小的主体(如人类或小模型)可能就不是。

目标 G:知识是关于某目标的。脱离目标谈知识是不完整的。

容许失真 D:现实中的知识表示都是“有损压缩”,我们允许一定的失真。

这个定义看似抽象,但它带来的改变是革命性的。它将“知识”从一个哲学思辨对象,变成了一个可计算、可预测的工程对象。例如,我们可以用它来精确回答:

可解释性问题:为什么AI的决策越来越难懂?因为我们发现,要把一个复杂模型的决策压进人类有限的认知带宽(容量C)时,其率失真函数R(D)显示,必然存在一个不可消除的失真下限。也就是说,“忠实”与“简洁”不可兼得。AI的知识越复杂,能给我们“完整解释”的可行性就越低。

蒸馏极限问题:为什么小模型永远学不到大模型的所有知识?因为大模型知识的最短描述长度(Kolmogorov复杂度)可能远大于小模型的容量C。蒸馏是一个码率受限的编码问题,当教师的知识量超过学生容量时,一部分知识在原理上就无法被蒸馏。这是信息论的硬约束。

世界锚定问题:为什么纯文本训练的模型总在物理常识上犯错?信息论给出了一道“世界带宽”上界。模型对世界的全部了解,被它的语料对世界的互信息 I(D; W) 从上方封死。一个纯语言模型,其能接触到的世界信息,被死死限定在了语料这个“文本信道”上。

信息论视角下,大模型的发展图景变得清晰而冷静。AI不是魔法,它是一个受信息论约束的系统。它的能力边界,由几何与信息论的交集精确划定。

Scroll for more