概述
1997年9月,塞普·霍赫赖特(Sepp Hochreiter)和于尔根·施密德胡伯(Jürgen Schmidhuber)在期刊《Neural Computation》上发表了题为《长短期记忆》的论文,引入了LSTM(Long Short-Term Memory)——一种专为学习序列数据中长期依赖关系而设计的循环神经网络架构,解决了标准RNN无法处理超过短序列的根本问题:梯度消失问题。
该论文两次被NIPS拒绝,却最终成为计算机科学中被引用最多的论文之一——超过10万次引用,为数十亿真实应用提供动力。
解决了什么问题
标准RNN使用时间反向传播(BPTT)训练时存在梯度消失问题:随着网络处理更长的序列,梯度呈指数级缩小,使网络无法学习跨越多个时间步长的依赖关系。
LSTM通过记忆单元和门控机制解决了这个问题:
- 遗忘门:决定从单元状态中丢弃哪些信息
- 输入门:决定存储哪些新信息
- 输出门:根据单元状态决定输出什么
这些通过反向传播学习的门,使LSTM能够保持任意长度序列的信息。
迟来的认可
LSTM早期在手写识别(苹果用于早期PalmPilot的Graffiti输入法)、移动键盘预测、语音识别中找到实践用途。但它的变革潜力直到以下年份才充分发挥:
- 2013年:带深度RNN的LSTM在语音识别中达到最优
- 2015年:谷歌语音识别切换到基于LSTM的模型
- 2017年:谷歌翻译切换到LSTM(直到2020年被Transformer取代)
为何重要
LSTM是注意力机制的直系祖先。当Vaswani等人(2017)引入Transformer时,“通过学习门选择性记忆和遗忘信息"的核心洞察被延续了下来。没有LSTM,从RNN到现代Transformer的道路会更长,甚至不存在。