概述
2012年9月,多伦多大学杰弗里·辛顿领导的团队参加了年度ImageNet大规模视觉识别挑战赛(ILSVRC)——计算机视觉领域最具声望的竞赛。他们提交的深度卷积神经网络AlexNet取得了15.3%的top-5错误率,而第二名的成绩为26.2%。
这不仅仅是一场胜利——而是一次断裂。计算机视觉领域多年来一直在使用传统方法缓慢推进。AlexNet在一年之内以近11个百分点的差距横扫所有对手。深度学习时代就此开启。
AlexNet背后的团队
- 杰弗里·辛顿:“深度学习教父”,他数十年来一直为神经网络发声,历经两次AI寒冬和支持向量机独霸天下的岁月,矢志不渝
- 亚历克斯·克里热夫斯基:AlexNet的主要实现者(名称正是取自他名字的前几个字母加上"net")
- 伊利亚·苏茨克维尔:后来成为OpenAI联合创始人,GPT架构的核心设计者之一
AlexNet的不同之处
2012年,三个此前各自独立发展多年的要素汇聚在一起:
1. 架构:AlexNet采用多层堆叠的卷积层,配以ReLU激活函数(加速训练)、dropout(防止过拟合)和局部响应归一化——这是一个精心设计的组合,能够提取层次化的视觉特征
2. GPU:训练在两块NVIDIA GTX 580 GPU——游戏显卡——上进行。克里热夫斯基的实现首次证明,GPU加速的深度网络可以在合理时间内完成大规模数据集的训练。这一洞见彻底改变了AI研究的经济逻辑
3. 数据:ImageNet本身——由斯坦福大学李飞飞汇编的120万张、横跨1000个类别的标注图片——提供了深度网络泛化所需的数据规模。没有这个数据集,AlexNet根本无法被训练出来
影响
AI社区的反应立竿见影,并席卷整个行业:
- 谷歌于2013年以约4400万美元收购了辛顿刚成立的DNNresearch公司
- Facebook、微软、百度等公司迅速组建了各自的深度学习研究团队
- GPU制造商英伟达原本专注于游戏领域,突然发现自己置身于AI革命的核心
- 短短五年内,深度学习不仅主导了计算机视觉,更主导了语音识别、自然语言处理和药物发现
为何这一时刻如此重要
AlexNet是现代AI故事中最清晰的单一拐点。2012年之前:专用算法、手工设计特征、进展缓慢。2012年之后:学习到的表示、指数级改进、工业规模投资。
麦克斯·贝内特在"五次突破"框架中,将构建内部世界模型的能力视为智能的关键门槛。AlexNet是第一个证明神经网络可以自动构建有效视觉世界表示的系统——无需手工设计特征。机器开始学习如何看,而不仅仅是对所见事物进行分类。