为什么说“知道得越多,熵就越大”?Fairy Girl

3/29/2026

一枚硬币抛向空中,落下前,你对结果有多确定?公平硬币有正反两个面,各50%概率。

如果这是一枚特殊硬币——两面都是正面,你对结果还会不确定吗?

这个简单的实验揭示了:信息本质上是消除不确定性的东西。你越不确定一件事,得知真相时获得的信息量就越大。

1948年,一位名叫克劳德·香农(Claude Shannon)的数学家在一篇名为《通信的数学理论》的论文中,首次提出了“信息熵”的概念,为量化信息开辟了全新维度。

信息与概率的反比关系

什么是信息?一个必然发生的事件——比如“明天太阳会升起”——几乎不携带任何信息,因为它没有消除任何不确定性。

相反,一个小概率事件——比如“你中了彩票”——会带来巨大的信息冲击,因为它极大地改变了你的认知状态。

Shannon从这个直觉出发,将信息定义为惊奇程度的度量。事件发生的概率越低,其发生时携带的信息量就越大。

为什么用对数?因为对数具有神奇的可加性。

从抛硬币理解熵的形态

考虑两种不同气体的混合过程:初始时,盒子被隔板分开,左边是氦气,右边是氖气。你知道每个粒子的身份,信息熵为零。

移开隔板后,气体混合,你不再能确定取出一个原子是氦还是氖,不确定性增加。这个信息熵的增加,恰好对应着热力学中的混合熵。

热力学第二定律说宇宙的熵总是增加,这可以重新解释为:我们对宇宙微观状态的知识总是在不可逆转地减少。

熵不是系统的内在属性,而是我们对系统无知程度的度量。

决策树中的信息

决策树如何选择数据特征

现在,让我们将上述理论应用到决策树的构建过程中,作为是一种基于树结构进行决策的机器学习算法,其核心问题在于:

每个节点应该选择哪个特征进行分裂?

ID3(Iterative Dichotomiser 3)算法及其改进版 C4.5 给出了基于信息论的经典答案。

Scroll for more