AlphaGo击败樊麾：AI征服古老的围棋

概述

2015年10月，经过比赛并于2016年1月公开宣布，DeepMind的AlphaGo以五比零全胜击败了欧洲围棋冠军樊麾。这是计算机程序历史上第一次在不让子的情况下击败职业围棋手。

长期认为围棋对计算机蛮力具有独特免疫力的围棋界，为之震惊。大多数专家此前预测，这一里程碑至少还需要十年才能实现。

国际象棋于1997年以纯粹的计算能力败于深蓝——只要能以足够快的速度评估足够多的棋局，国际象棋也变得可以应对。围棋的不同是本质性的，而非程度上的：

正因如此，围棋抵御了此前所有AI方法的挑战。这一突破需要本质上不同的东西。

AlphaGo综合了多项创新：

1. 深度神经网络：两个网络——策略网络（考虑哪些走法）和价值网络（该局面有多好）——在数百万人类专家棋局上进行训练

2. 强化学习：AlphaGo随后与自身进行数百万局对弈，利用对局结果改进其策略网络和价值网络，远远超越人类专家水平

3. 蒙特卡洛树搜索：AlphaGo不进行穷举式搜索，而是使用统计采样来高效评估有前景的着法序列

这种组合十分优雅：人类棋谱提供初始训练信号，自我对弈将其精炼至超人水平，树搜索则在决策时将一切整合起来。

樊麾描述这种体验令人困惑——AlphaGo的落子，凭人类直觉感觉"有问题"，却被证明是深刻正确的。这种机器着棋的"异类气质"，此后将成为一个反复出现的主题。

三个月后，AlphaGo以4比1击败世界排名第一的李世石，比赛被全球6000万观众收看。李世石赢得的那局（第四局）被认为是围棋史上最精彩的着法之一：“神之一手”——一招令AlphaGo的计算一时陷入混乱。

2017年，AlphaGo Zero从零开始训练，完全不使用人类棋谱数据，仅凭规则，在40天内超越了此前所有版本。其中蕴含的洞见意义深远：在某些领域，人类数据是上限，而非地基。

AlphaGo同时标志着几个转变：

DeepMind后来将这些相同原理应用于蛋白质折叠（AlphaFold）、药物发现和能源优化——证明了AlphaGo不是一条死胡同，而是一个模板。