LSTM：长短期记忆网络

概述

1997年9月，塞普·霍赫赖特（Sepp Hochreiter）和于尔根·施密德胡伯（Jürgen Schmidhuber）在期刊《Neural Computation》上发表了题为《长短期记忆》的论文，引入了LSTM（Long Short-Term Memory）——一种专为学习序列数据中长期依赖关系而设计的循环神经网络架构，解决了标准RNN无法处理超过短序列的根本问题：梯度消失问题。

该论文两次被NIPS拒绝，却最终成为计算机科学中被引用最多的论文之一——超过10万次引用，为数十亿真实应用提供动力。

解决了什么问题

标准RNN使用时间反向传播（BPTT）训练时存在梯度消失问题：随着网络处理更长的序列，梯度呈指数级缩小，使网络无法学习跨越多个时间步长的依赖关系。

LSTM通过记忆单元和门控机制解决了这个问题：

遗忘门：决定从单元状态中丢弃哪些信息
输入门：决定存储哪些新信息
输出门：根据单元状态决定输出什么

这些通过反向传播学习的门，使LSTM能够保持任意长度序列的信息。

迟来的认可

LSTM早期在手写识别（苹果用于早期PalmPilot的Graffiti输入法）、移动键盘预测、语音识别中找到实践用途。但它的变革潜力直到以下年份才充分发挥：

2013年：带深度RNN的LSTM在语音识别中达到最优
2015年：谷歌语音识别切换到基于LSTM的模型
2017年：谷歌翻译切换到LSTM（直到2020年被Transformer取代）

为何重要

LSTM是注意力机制的直系祖先。当Vaswani等人（2017）引入Transformer时，“通过学习门选择性记忆和遗忘信息"的核心洞察被延续了下来。没有LSTM，从RNN到现代Transformer的道路会更长，甚至不存在。

参考

Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8).