概述
2017年6月12日,Google Brain和谷歌研究院的研究人员发表了一篇题为《Attention Is All You Need》(注意力就是你所需要的一切)的论文。论文介绍了Transformer——一种神经网络架构,此后十年间,它成为几乎所有重要AI系统的基础:GPT、BERT、T5、DALL-E、Stable Diffusion、AlphaFold等,不一而足。
该论文被引用超过十万次,是计算机科学史上被引用次数最多的论文之一。
它解决的问题
在Transformer出现之前,序列任务(如机器翻译)的主流架构是**循环神经网络(RNN)**及其变体(LSTM、GRU)。RNN逐步处理序列——逐词推进——这带来了两个根本性问题:
- 顺序瓶颈:每一步都依赖前一步,使得训练无法在GPU上完全并行化
- 长程遗忘:随着网络处理更多词元,序列早期的信息逐渐消失——这对长文档或复杂语法依赖是致命的缺陷
Transformer以一个架构洞见,同时消除了这两个问题。
核心洞见:自注意力
Transformer的关键机制是自注意力:输入序列中的每个位置同时关注所有其他位置,计算每个词与其他词的相关程度。
考虑翻译这句话:“The animal didn’t cross the street because it was too tired."(动物没有穿过街道,因为它太累了。)“它"指的是动物还是街道?自注意力使模型能够直接将"它"与"动物"和"街道"进行比对,根据从数据中学到的语义模式,赋予"动物"更高的权重。
与RNN不同,这种比对对所有词同时并行进行——实现了大规模GPU加速——且跨长距离不存在信息衰减。
架构
Transformer由以下部分构成:
- 编码器:多层自注意力+前馈网络,构建输入的上下文化表示
- 解码器:类似结构,但还会关注编码器的输出以生成目标序列
- 多头注意力:并行运行多个注意力操作,每个捕捉不同类型的关系
- 位置编码:由于模型同时处理所有位置,位置信息需单独添加
论文的八位作者——Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Łukasz Kaiser和Illia Polosukhin——在谷歌所描述的"相对较短的研究冲刺"中完成了这项工作。
没有人预料到的泛化
Transformer最初是为机器翻译设计的。没有人预料到它的泛化能力如此之强:
- 2018年:BERT(谷歌)将Transformer应用于语言理解——在所有NLP基准上取得最优表现
- 2018年:GPT-1(OpenAI)证明Transformer可以生成连贯的长篇文本
- 2020年:GPT-3在规模化下展现出涌现式的少样本学习能力
- 2021年:图像Transformer(ViT)与CNN持平并超越
- 2022年:AlphaFold2使用Transformer解决蛋白质结构预测问题
- 2022-2023年:Stable Diffusion、DALL-E 2、Midjourney——全部基于Transformer
这种架构不只是翻译任务中更好的工具;它是一种通用学习算法,在规模化后趋近于某种类似通用智能的东西。
为何这在文明层面至关重要
尤瓦尔·诺亚·赫拉利在《人类简史》续作《Nexus》中提出,AI作为非人类行为体进入信息网络,是自书写发明以来最重大的转变。Transformer正是这一转变发生的机制。每一个能够阅读、书写、推理和生成内容的大型语言模型,都建立在《Attention Is All You Need》的基础之上。
这个标题中的七个词(英文),被证明几乎字面上是真的。