豆瓣8.7分的AI纪录片——“阿尔法围棋”
果不是AlphaGo的出现,关于围棋我们还只停留在小学生水平。2016年3月谷歌旗下的深度思维公司(DeepMind)和世界围棋冠军职业九段棋手李世石进行了备受瞩目的围棋人机大战。这场震惊世界的比赛台前幕后的全过程,以及人工智能的发展与强大都被记录在这部关于人工智能的纪录片 “阿尔法围棋” 中 。今天我们就一起来重温一下这部电影,一起来看看阿尔法狗是用什么算法打败了世界围棋顶级高手。
影片的开始先介绍了 “阿尔法狗” 程序的幕后研发团队——谷歌旗下的DeepMind。该团队将该项目比作人工智能领域的“阿波罗计划”。 而最初的“阿尔法”是在“弹球打砖块”的游戏的启发下开始研发的。当DeepMind研发出可以自行学习并找出游戏最佳策略的程序后,他们将目标转移到了“人类有史以来发明过的最复杂”的游戏——围棋上。围棋虽然表面看起来很单纯,但实际上非常抽象。每颗围棋棋子可以选择的路径很多,大约有200种,而其可能变化的数目,即使运用全世界的电脑,运行100万年,可能也无法完全计算出每一种可能。
所以想要攻克围棋的阿尔法狗必须通过深度学习,让程序在不断地学习中,算出超出程序员可知范围的最优解。DeepMind团队给它设定了三部分网络。第一部分是Policy Network,用数以万计的高阶棋局训练它,学习模仿棋手的招式。第二部分是Value Network,可以衡量棋局形势,判断获胜概率。第三个网络是Tree search,用来分析棋局变化的情况,并推演棋局未来的演变。在每局棋局中,首先policy network会扫描棋子摆放的情况,选出可行的落点。接着根据每个落点可能的变化,构建Tree search。然后用value network 分析每一种方法的胜率。阿尔法狗的原则是最大化胜率,但不在乎赢多少。
DeepMind 在研究两年后,决定让AlphaGo 与欧洲围棋冠军,围棋职业二段选手樊麾PK一下。一开始樊麾觉得这非常容易,只不过像人机对战那样,和一个程序PK。比赛的结果是樊麾连输五局。在人们大肆宣扬阿尔法狗的同时,也有很多人批评樊麾技艺不精,毕竟只是二段。在职业围棋分段中,最高段是职业九段。因此,两个月后, DeepMind 团队决定让阿尔法狗接受更大的挑战,和世界围棋冠军,职业九段选手李世石进行对决。在外界看来,这是 “人类和机器的终极对决” 。李世石的参赛也被媒体誉为 “为人类而战” 。跟樊麾一样,李世石在比赛开始前也是信心满满,他认为人类的直觉还是遥遥领先于机器的。
但在第一局,他就意识到了自己之前的想法有多可笑。第一局开始没多久,阿尔法狗就下出了职业选手的水平,用刺切断了李世石的路。随着棋局的发展,阿尔法狗已经推算出了之后的50-60步,在其强大的攻势下,李世石在150步后弃子投降。而在第二局,阿尔法狗更是下出了创新的第37步,这是一步人类棋手只有1%几率会下的位置。而在之后的比赛中,这一步更是发挥巨大的作用,为阿尔法狗又赢下了一局。而这一步棋也让DeepMind团队非常惊喜与兴奋,因为这是阿尔法狗第一次自我意识的体现。之后的几局,李世石更加小心翼翼,并且改变策略。在第四局,李世石用第78步挖打乱了阿尔法狗的计算,赢得了唯一的一场胜利。虽然李世石在第四局发现了阿尔法狗的漏洞,但是那只是碰巧,因为他无法计算阿尔法狗什么时候会出现漏洞。最终,这场人机大战还是以1:4收场。
在此后的日子里,阿尔法狗在中国棋类网站上与数十位围棋高手进行快棋对决,连续60局无一败绩,已经成为了超越人类职业围棋顶尖水平的存在(职业11段)。而在2017年5月,DeepMind带着全新的“阿尔法-大师”对战世界排名第一柯洁,结果柯洁也是以0:3完败。这场比赛之后,阿尔法狗也退出了围棋界,向别的领域研究发展。
不可否认,阿尔法狗的出现不仅仅是给围棋界带来了巨大的震动,同时也对人类社会产生了巨大的影响。它让我们看到了人工智能的巨大潜力,阿尔法狗的意义决不在于游戏,而是在于下一步可以推动医疗,能源等方向的变革,从而造福人类社会。
原文作者:Holly Kong
美工编辑:过儿
校对审稿:冬冬