万物皆向量——当AI选择用数学理解世界AI-lab学习笔记

多模态 AI 揭示了一个深刻的事实：文字、图片、声音——看似截然不同的信息形式，最终都被转化成了同一种东西——向量。然后由同一个 Transformer 用同一套 Attention 机制处理。这引出一个更根本的问题：理解这个世界，最终都要变成语言吗？还是说，有一种比语言更底层的"表示"在承载真正的理解？

从一句话说起

在多模态文章的结尾，我写了一句话：

多模态并没有发明新的"理解"机制，而是把所有模态都翻译成同一种语言——向量，然后让 Transformer 用它已经会的 Attention 机制来处理一切。

写完之后我停了一下。

因为这句话的分量比我预想的要重。它不仅仅是在描述一个技术事实——它触及了一个更根本的问题：

理解这个世界，最终都要变成语言吗？

一、AI 的选择：向量

先回顾一个事实。

当今最强的多模态 AI 是这样工作的：

▲ 万物归一：文字、图像、声音——不同的入口，同一个向量空间

文字 → Tokenizer → 向量序列 ——┐

图片 → ViT → 向量序列 ——┤——→ Transformer → 统一推理 → 输出

声音 → 音频编码器 → 向量序列 ——┘

对 Transformer 来说，进来的都是向量。它不关心这个向量来自文字、图片还是声音。它只做一件事：用 Attention 计算每个向量和其他所有向量之间的关系。

这意味着，AI 用来"理解"世界的基本单位，不是词，不是像素，不是声波——而是向量。

向量是一组数字。比如 [0.82, 0.15, -0.31, 0.67, ...]，可能有 768 维，也可能有 4096 维。每个维度没有人类可读的含义——你不能说"第 7 维代表颜色"或"第 42 维代表情感"。但这组数字整体编码了某种语义。

当我们说"猫的图片和'猫'这个词在向量空间中很近"时，我们在说的是：AI 找到了一种超越具体模态的表示方式，用纯数学的距离来刻画语义的远近。

这是一个非常不人类的选择。

二、人类的选择：语言

人类理解世界的历史，几乎就是语言演化的历史。

具体经验 → 命名 → 概念 → 推理 → 知识体系

"那个又红又圆又甜的东西" → "苹果"

"太阳从那边出来" → "东方"

"东西落到地上" → "重力"

"F = ma" → 牛顿力学

语言做了一件了不起的事：它把连续的、混沌的感觉经验，切割成离散的、可操作的概念。

有了"苹果"这个词，你不需要每次都重新描述"那个又红又圆又甜的东西"。有了"重力"这个概念，你不需要每次都从头推导为什么东西会落到地上。

语言是人类发明的最强大的压缩工具。它把无穷的经验压缩成有限的词汇，让我们能用几十万个词描述一个无穷复杂的世界。

在《压缩即智能》那篇开篇文章中我们说过：

智能的本质是压缩——用更少的东西表示更多的东西。

语言就是人类版的"压缩"。

所以你的直觉是对的：理解最终要变成语言——至少对于人类来说是这样的。我们思考时使用语言，我们交流时依赖语言，我们建构知识体系时离不开语言。

但这里有一个微妙的问题——

三、语言的边界

1921 年，维特根斯坦在《逻辑哲学论》中写下了一句著名的话：

"我的语言的边界就是我的世界的边界。"

(Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt.)

这句话有两种读法。

读法一（限制性）：你只能思考你能用语言表达的东西。语言之外没有思想。

读法二（描述性）：语言能到达的地方就是你世界的范围——语言越丰富，世界越大。

不管哪种读法，它都预设了一个前提：语言 = 理解的边界。

但真的是这样吗？

▲ 人类的理解范围远大于语言能表达的范围

想一想你自己的经验：

你能用语言完美描述的：

"这是一只橘色的猫" → 语言足够

"1 + 1 = 2" → 语言足够

"她比我高 5 厘米" → 语言足够

你无法用语言完美描述的：

妈妈做的红烧肉的味道 → 你能说"咸鲜""入味"，但这和真实的味觉差了十万八千里

第一次看到大海的震撼 → "壮观""辽阔"——词语太单薄了

莫扎特 G 小调 40 号交响曲的第一乐章为什么让人心碎

→ 你可以写一万字乐评，但不如听 30 秒

你的脸 → 你能说"瓜子脸、大眼睛"，但这描述适用于几百万人

我们理解的东西，远远多于我们能说出来的东西。

心理学家称之为"内隐知识"（tacit knowledge）——波兰尼的名言是"我们知道的比我们能说出来的多得多"（We know more than we can tell）。

一个经验丰富的面包师知道面团什么时候揉好了——他能感觉到面团的弹性、湿度、温度。但如果你让他用语言精确描述这个判断标准，他做不到。

一个围棋高手看一眼棋盘就知道"形势不好"——但如果你让他精确解释为什么，他可能只能说"感觉"。

这些理解是真实的、有效的、但超越了语言的表达能力。

四、向量：一种比语言更宽的表示

回到 AI。

当我们说"向量是 AI 的通用语言"时，有一个关键的区别：向量不是人类语言。

人类语言是离散的——"猫"或者"不是猫"，中间没有连续过渡。

向量是连续的——在"猫"的向量和"狗"的向量之间，有无穷多个中间状态。

人类语言的世界：

"猫" "狗" "老虎" "狮子"

• • • • ← 离散的点，互不连接

向量空间的世界：

猫 ———— 狗

| |

| | ← 连续的空间，可以平滑过渡

| |

老虎 ——— 狮子

你可以有一个"30% 猫 + 70% 狗"的向量

→ 这个向量在人类语言中没有对应的词

→ 但它在数学上是有意义的

这引出一个令人不安的可能性：

向量空间中存在大量"没有对应人类语言的概念"。

模型可能在向量空间中发现了一些语义关系，这些关系对生成正确答案非常重要，但人类没有为它们命名过。

我们在 Embedding 文章中提到过 Word2Vec 的经典发现：

vec("国王") - vec("男人") + vec("女人") ≈ vec("王后")

这个向量运算揭示了一个语义关系——性别与权力的交叉。人类当然理解"国王对应王后"，但我们不太会用"性别维度上的平移"来描述这种关系。向量空间提供了一种人类语言没有的描述方式。

在更高维的空间里，这种"语言无法命名但数学上有意义"的结构只会更多。

五、人类和 AI 的对比：殊途同归？

把人类的理解过程和 AI 的理解过程放在一起看，会发现一个有趣的对称性：

▲ 人类用神经元，AI 用向量——但两者的处理流程惊人地相似