AlexNet：深度学习革命的开端

概述

2012年9月，多伦多大学杰弗里·辛顿领导的团队参加了年度ImageNet大规模视觉识别挑战赛（ILSVRC）——计算机视觉领域最具声望的竞赛。他们提交的深度卷积神经网络AlexNet取得了15.3%的top-5错误率，而第二名的成绩为26.2%。

这不仅仅是一场胜利——而是一次断裂。计算机视觉领域多年来一直在使用传统方法缓慢推进。AlexNet在一年之内以近11个百分点的差距横扫所有对手。深度学习时代就此开启。

2012年，三个此前各自独立发展多年的要素汇聚在一起：

1. 架构：AlexNet采用多层堆叠的卷积层，配以ReLU激活函数（加速训练）、dropout（防止过拟合）和局部响应归一化——这是一个精心设计的组合，能够提取层次化的视觉特征

2. GPU：训练在两块NVIDIA GTX 580 GPU——游戏显卡——上进行。克里热夫斯基的实现首次证明，GPU加速的深度网络可以在合理时间内完成大规模数据集的训练。这一洞见彻底改变了AI研究的经济逻辑

3. 数据：ImageNet本身——由斯坦福大学李飞飞汇编的120万张、横跨1000个类别的标注图片——提供了深度网络泛化所需的数据规模。没有这个数据集，AlexNet根本无法被训练出来

AI社区的反应立竿见影，并席卷整个行业：

AlexNet是现代AI故事中最清晰的单一拐点。2012年之前：专用算法、手工设计特征、进展缓慢。2012年之后：学习到的表示、指数级改进、工业规模投资。

麦克斯·贝内特在"五次突破"框架中，将构建内部世界模型的能力视为智能的关键门槛。AlexNet是第一个证明神经网络可以自动构建有效视觉世界表示的系统——无需手工设计特征。机器开始学习如何看，而不仅仅是对所见事物进行分类。