只用小学数学带你读懂《Attention Is All You Need》AI真人感

6/18/2026

如果要评选出人工智能领域最著名的一句话

Attention Is All You Need

一定值得被提名

2017年,8位Google的工程师发表了一篇论文。

论文发表之后,一家创业公司敏锐地抓住了论文中架构的核心思想,用它训练了一个新模型,彻底改变了整个AI圈。

这家公司就是截止到目前市值超过 8000 多亿美元的 OpenAI。

这个模型就是 GPT 系列。

其中GPT 的 T,就是指 Transformer。

而这篇论文的标题就是这句

Attention Is All You Need。

你需要的,只是注意力。

这篇论文首次提出了 Transformer 架构,彻底改变了人工智能的技术路线,催生了OpenAI等行业巨头的迅速崛起。

后来 8 位作者也都离开了 Google,其中的 7 位选择了创业,而他们创立的公司,估值也普遍达到了数亿到数十亿美金。

一篇论文的背后催生的商业帝国价值实在让人疯狂,为什么今天的大模型,都活在《Attention Is All You Need》的影子里。

有时候,一场技术革命的开头,看起来像一句很狂的话。

《Attention Is All You Need》

这个标题翻译得再直一点,大概就是,你只要注意力就够了,其他都不需要。

说真的,这种标题多少有点要掀桌子的意思。

读懂了这篇论文,就掌握了通用生成式大模型的核心思想。

要理解 Transformer,我们先看它出现之前,到底存在什么问题。

回到 2017 年之前,AI 处理自然语言,靠的主要是一种叫 RNN(循环神经网络)的技术。

RNN 的工作方式,就像一个一字一句,按顺序读书的学生。读到「我」,记住「我」,然后读「今」,然后读「天」,然后读「买」……每读一个字,它都把前面的信息往后带一点。

后来的 LSTM、GRU,都是在这条路线上做的改良。

听起来很合理,对吧。我们读句子不也是这样吗。

可读着读着,问题就来了。

RNN 有两个非常棘手的问题。

第一个就是记性不好,一句很短的话,还撑得住。

句子一长,前面的信息就容易被冲淡。

「我昨天在书店买了一本科幻小说,晚上回家洗完澡,泡了杯茶,坐到沙发上,才开始读它。」

人当然知道最后那个「它」指的是前面的「科幻小说」。

但是机器如果靠RNN,走到最后时,那本书的影子有可能就要忘记了。

它可能会猜「它」指的是茶,或者沙发。

你想想看,这像不像传话筒。

人一多,距离一长,前面说过的话就开始失真。

越长的句子,RNN 越容易犯糊涂。

而且,还慢。

这是另一个更要命的问题。

RNN 这条路线天然很难并行。

前一个词没算完,后一个词就不好算。

这在今天的 GPU、TPU 世界里,特别吃亏。因为这些硬件最擅长的事,不是耐心排队,而是大家一起算。

但 RNN 的结构决定了它只能排队一个个来,完全浪费了快速发展的底层能力。

后来人们也不是没有想办法补救。

在 Transformer 之前,注意力机制其实已经出现了。那时候它更像给老房子加了个外挂窗户,翻译模型在生成一个词的时候,可以回头看一看原句里哪些地方更相关。

是有一定的效果。

但房子的主梁还在,还是那套一格一格往前传的结构。

2016年的某一天,谷歌工程师波罗斯库欣在公司吃饭,向同事乌兹科雷特抱怨,说搜索模型里 RNN 太慢了,达不到想要的效果。

乌兹科雷特随口说了一句话,一共五个单词,全是初中词汇:

「Why not use self-attention?」

为什么不用自注意力呢?

就是这句话,推开了一扇门。

二人一拍即合,决定推翻当时风头正盛的 RNN 和 LSTM。

乌兹科雷特后来给这个新项目取了个名字,叫 Transformer。因为他从小是变形金刚的铁粉。他们甚至在项目文档中画了一幅变形金刚的卡通图,然后写了一句底气十足的话:

「We are awesome.」

接下来的内容有点干,我们先喝口水...

进入论文中最精髓的部分,就是这张 transformer 架构图 Encoder-Decoder,我们只用小学数学知识理解它。

先看左边的最底部 inputs

transformer 架构最初是为了处理翻译任务,在训练模型时喂给模型的语料数据就是输入

进入模型后首先进行input embedding,输入嵌入

我们平时使用的自然语言,模型是无法直接计算的,都会先经过分词被转换成另一个大家每天都能听到的词 token

token 最近也有了自己的官方中文名字 「词元」

这里插一句自然语言转换成 token,不同的模型使用的分词规则是不同的,举个最直观的例子

中文常用字级分词,‘我爱 AI’会分成 4 个 token

也有模型用词级,‘人工智能神奇’会分词 3 个 token,人工智能算成了一个词。

为了让计算机理解,所以每个词,都要先被转换成一组数字,也就是一个向量,在原始的 Transformer 论文里,这个向量是 512 维的。

比如‘我’变成了 [0.12, -0.33, 0.98 ...]

3 维空间我们很好理解,但是 512 维脑子就乱了,但是计算机可以很好的利用 512 维的空间,这样每个词的所有特征都能被标记出来,计算机就理解了每一个词的含义。

想象有 512 位侦探,每人只负责观察这个词的一个特定角度,有人专门看「这个词和食物有没有关系」,有人专门看「这个词是不是带情绪的」,有人专门看「这个词更偏向具体的东西还是抽象的概念」

512 个人各自给出一个数值,合在一起就是这个词的向量。

含义相近的词,在这个 512 维空间里会挨得很近,苹果和香蕉的距离比和石头的距离要近,程序员和代码位置也会比较近。

有了数字表示的向量,这个 512 维的空间就可以运算了。

比如我们用「湖人」的向量减去「洛杉矶」,再加上「芝加哥」的向量,结果就落在「公牛」的附近。

「长城」减 「中国」,再加上「埃及」,结果很可能就是「金字塔」。

如果你好奇,也可以用向量算一下谁更像男版的杨超越...

我们在回头看刚才的例子,湖人指向洛杉矶的向量和公牛指向芝加哥的向量,两个方向几乎一致,他们都代表 NBA 球队所在的城市,它们表示的语义非常接近,两个向量的夹角越小,它们的内积,也就是点积就越大,代表这两个向量的意思越接近,夹角越小,甚至方向相反,相关性就越小。

Scroll for more