所有事件
research-breakthrough
☆ 本纪

AlphaGo击败樊麾:AI征服古老的围棋

概述 2015年10月,经过比赛并于2016年1月公开宣布,DeepMind的AlphaGo以五比零全胜击败了欧洲围棋冠军樊麾。这是计算机程序历史上第一次在不让子的情况下击败职业围棋手。 长期认为围棋对计算机蛮力具有独特免疫力的围棋界,为之震惊。大多数专家此前预测,这一里程碑至少还需要十年才能实现。 围棋的与众不同之处 国际象棋于1997年以纯粹的计算能力败于深蓝——只要能以足够快的速度评估足够多的棋局,国际象棋也变得可以应对。围棋的不同是本质性的,而非程度上的: 棋盘更大 …

2016-01-27

概述

2015年10月,经过比赛并于2016年1月公开宣布,DeepMind的AlphaGo以五比零全胜击败了欧洲围棋冠军樊麾。这是计算机程序历史上第一次在不让子的情况下击败职业围棋手。

长期认为围棋对计算机蛮力具有独特免疫力的围棋界,为之震惊。大多数专家此前预测,这一里程碑至少还需要十年才能实现。

围棋的与众不同之处

国际象棋于1997年以纯粹的计算能力败于深蓝——只要能以足够快的速度评估足够多的棋局,国际象棋也变得可以应对。围棋的不同是本质性的,而非程度上的:

  • 棋盘更大:19路棋盘对比国际象棋的8路棋盘,可能产生约10^170种棋局(多于可观测宇宙中的原子数量)
  • 评估更难:国际象棋中,子力优势(数子)是判断局面强弱的合理指标。围棋评估一个局面,需要专家也难以言明的整体性模式识别
  • 蛮力失效:即使每秒评估一万亿个棋位,计算机也无法对围棋的博弈树进行有意义的搜索

正因如此,围棋抵御了此前所有AI方法的挑战。这一突破需要本质上不同的东西。

AlphaGo的工作原理

AlphaGo综合了多项创新:

1. 深度神经网络:两个网络——策略网络(考虑哪些走法)和价值网络(该局面有多好)——在数百万人类专家棋局上进行训练

2. 强化学习:AlphaGo随后与自身进行数百万局对弈,利用对局结果改进其策略网络和价值网络,远远超越人类专家水平

3. 蒙特卡洛树搜索:AlphaGo不进行穷举式搜索,而是使用统计采样来高效评估有前景的着法序列

这种组合十分优雅:人类棋谱提供初始训练信号,自我对弈将其精炼至超人水平,树搜索则在决策时将一切整合起来。

比赛及其后续

樊麾描述这种体验令人困惑——AlphaGo的落子,凭人类直觉感觉"有问题",却被证明是深刻正确的。这种机器着棋的"异类气质",此后将成为一个反复出现的主题。

三个月后,AlphaGo以4比1击败世界排名第一的李世石,比赛被全球6000万观众收看。李世石赢得的那局(第四局)被认为是围棋史上最精彩的着法之一:“神之一手”——一招令AlphaGo的计算一时陷入混乱。

2017年,AlphaGo Zero从零开始训练,完全不使用人类棋谱数据,仅凭规则,在40天内超越了此前所有版本。其中蕴含的洞见意义深远:在某些领域,人类数据是上限,而非地基。

意义

AlphaGo同时标志着几个转变:

  • 从狭义到深度:与深蓝不同,AlphaGo的技术(深度强化学习+神经网络)可以泛化到其他领域
  • 规模化强化学习:证明了在没有人类标注数据的情况下,自我对弈可以产生超人水平的表现
  • 创造性的机器:AlphaGo在李世石对局中的"第三十七手"——一个任何人类都不会下的走法——被围棋大师认可为真正意义上的创造性

DeepMind后来将这些相同原理应用于蛋白质折叠(AlphaFold)、药物发现和能源优化——证明了AlphaGo不是一条死胡同,而是一个模板。

参考资料