AlphaGo为何能够战胜顶级围棋手李世乭？-高校科技-中国教育和科研计算机网CERNET

中国教育和科研计算机网中国教育高校科技教育信息化下一代互联网 CERNET 返回首页

EDU首页中国教育高校科技教育信息化 CERNET

首页 > 高校科技 > 专题报道 > 主编微讲堂

AlphaGo为何能够战胜顶级围棋手李世乭？

2016-03-21 主编微讲堂李志民

　　3月9日至3月15日，全球关注的“人机大战”，由顶级围棋手李世乭与谷歌计算机围棋程序“阿法狗”（AlphaGo）进行对弈，结局是李世乭以1：4输了。

　　这个“阿法狗”搅起的波澜似乎远胜过IBM的 “深蓝”等前辈。因为它的难度完全不同，国际象棋的下法可以穷尽，围棋的下法几乎不可以穷尽。比赛后，舆论各说纷纭，其实，无论谁输谁赢，对于大众来说，这一场比赛最大的收获莫过于完成了人工智能的大众科学普及工作，从而带来人们对于自动驾驶和人工智能的广泛兴趣，并且逐渐地相信，机器独特的判断力。

　　AlphaGo为何能够赢比赛呢？

　　2013年，谷歌以4亿英镑收购了DeepMind这个仅有50多人的小公司，结合谷歌的深度学习技术，其计算能力飞速提升，研发出了阿法狗。阿法狗的主要工作原理是“深度学习”。深度学习是什么？深度学习的概念源于人工神经网络的研究，深度学习是指机器通过深度神经网络，模拟人脑的机制来学习、判断、决策，已经被广泛应用于许多领域。

　　谷歌的研究人员在AlphaGo的程序中搭建了两套模仿人类思维方式的深度神经网络。第一种叫“策略网络”它让程序学习人类棋手的下法，挑选出比较有胜率的棋谱，抛弃明显的差棋，使总运算量维持在可以控制的范围内。另一种叫价值网络，主要用于减少搜索的深度，它不会一下子搜索一盘棋所有的步数，而是一边下一边进行未来十几步的计算，这样也就大量减少计算量。

　　AIphaGo根据深度学习的原理练习下围棋，具体做法是先给阿法狗输入3000万步人类围棋大师的下棋走法，让阿法狗自我对弈3000万局，积累胜负经验，制定策略网络，给出落子选择；阿法狗在自我对弈的训练中形成全局观，对局面随时作出评估，构成价值网络，修正原落子选择，最终给出最优落子位子。

　　人可以疲劳，可能走神，机器不会疲劳，不会走神。（主编李志民，责任编辑陶春）