《Attention Is All You Need》：Transformer架构

概述

2017年6月12日，Google Brain和谷歌研究院的研究人员发表了一篇题为《Attention Is All You Need》（注意力就是你所需要的一切）的论文。论文介绍了Transformer——一种神经网络架构，此后十年间，它成为几乎所有重要AI系统的基础：GPT、BERT、T5、DALL-E、Stable Diffusion、AlphaFold等，不一而足。

该论文被引用超过十万次，是计算机科学史上被引用次数最多的论文之一。

它解决的问题

在Transformer出现之前，序列任务（如机器翻译）的主流架构是**循环神经网络（RNN）**及其变体（LSTM、GRU）。RNN逐步处理序列——逐词推进——这带来了两个根本性问题：

顺序瓶颈：每一步都依赖前一步，使得训练无法在GPU上完全并行化
长程遗忘：随着网络处理更多词元，序列早期的信息逐渐消失——这对长文档或复杂语法依赖是致命的缺陷

Transformer以一个架构洞见，同时消除了这两个问题。

核心洞见：自注意力

Transformer的关键机制是自注意力：输入序列中的每个位置同时关注所有其他位置，计算每个词与其他词的相关程度。

考虑翻译这句话：“The animal didn’t cross the street because it was too tired."（动物没有穿过街道，因为它太累了。）“它"指的是动物还是街道？自注意力使模型能够直接将"它"与"动物"和"街道"进行比对，根据从数据中学到的语义模式，赋予"动物"更高的权重。

与RNN不同，这种比对对所有词同时并行进行——实现了大规模GPU加速——且跨长距离不存在信息衰减。

架构

Transformer由以下部分构成：

编码器：多层自注意力+前馈网络，构建输入的上下文化表示
解码器：类似结构，但还会关注编码器的输出以生成目标序列
多头注意力：并行运行多个注意力操作，每个捕捉不同类型的关系
位置编码：由于模型同时处理所有位置，位置信息需单独添加

论文的八位作者——Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Łukasz Kaiser和Illia Polosukhin——在谷歌所描述的"相对较短的研究冲刺"中完成了这项工作。

没有人预料到的泛化

Transformer最初是为机器翻译设计的。没有人预料到它的泛化能力如此之强：

2018年：BERT（谷歌）将Transformer应用于语言理解——在所有NLP基准上取得最优表现
2018年：GPT-1（OpenAI）证明Transformer可以生成连贯的长篇文本
2020年：GPT-3在规模化下展现出涌现式的少样本学习能力
2021年：图像Transformer（ViT）与CNN持平并超越
2022年：AlphaFold2使用Transformer解决蛋白质结构预测问题
2022-2023年：Stable Diffusion、DALL-E 2、Midjourney——全部基于Transformer

这种架构不只是翻译任务中更好的工具；它是一种通用学习算法，在规模化后趋近于某种类似通用智能的东西。

为何这在文明层面至关重要

尤瓦尔·诺亚·赫拉利在《人类简史》续作《Nexus》中提出，AI作为非人类行为体进入信息网络，是自书写发明以来最重大的转变。Transformer正是这一转变发生的机制。每一个能够阅读、书写、推理和生成内容的大型语言模型，都建立在《Attention Is All You Need》的基础之上。

这个标题中的七个词（英文），被证明几乎字面上是真的。

《Attention Is All You Need》：Transformer架构

概述

它解决的问题

核心洞见：自注意力

架构

没有人预料到的泛化

为何这在文明层面至关重要

参考资料