陈经:柯洁与AlphaGo第二局的精彩看点
【文/观察者网专栏作者 陈经】
2017年5月25日,三番棋中以0:1落后的柯洁执白与AlphaGo再次对局,155手中盘告负。虽然第三局还要下(柯洁执白的请求得到同意),但三番棋已经0:2告负。
但是本局令人激动,柯洁成功将棋局导向特别复杂混乱的局面(正如笔者上篇预期)。柯洁自己与不少职业解说都感觉有胜机了,棋迷们更是热血沸腾,希望看到战胜AlphaGo的奇迹出现。虽然没有透露更多数据细节,哈萨比斯也两次发信息,说柯洁表现非常好,前面表现完美,后面将AlphaGo逼到了极限。赛后发布会上,哈萨比斯说“前100手双方差距非常小”,从来没有其它棋手做到过这一点。这说明柯洁确实是人类最强棋手。
柯洁 VS AlphaGo第二局(中新网)
前两局中间的的研讨会上,Deepmind公布了AlphaGo的升级版本Master的一些研发思路,而且说在6月份会像上次的《自然》论文一样公布细节,帮助其它公司做出和Master一样强大的围棋AI。我根据这些信息,写了一些分析发给了应氏杯冠军唐韦星,希望对柯洁,以及唐韦星参加的对AlphaGo的五人相谈棋有帮助。唐韦星认为有道理,是要将局面导向复杂,但感觉很难做到。他将我们的对话公布在了微博上,柯洁也看到了,引发了热烈讨论。
由于之前Master的60局,它都能简单地控制局面,所以职业棋手们虽然知道不能这么简单地输,要制造复杂局面,但确实不知道怎么下才行。但是本局柯洁前半盘的完美表现说明,这是可以做到的!100手之后,黑白双方一度有九块棋不安定,还有一个天下大劫,即使与人类棋手的激烈对局相比,都算是很复杂的。
本文我先根据研讨会上Deepmind团队透露的信息,解释Master的技术秘密,为什么它居然能让李世石版本的AlphaGo三子。然后再介绍本局的精彩之处。
一.Master强大的秘密在于它是“复盘大师”
其实Deepmind用策略与价值两个网络构造围棋AI,并让它不断自我对弈学习进步的思想,与人类高手群体下棋时的思维以及棋艺进步的过程是相通的。抛开计算机术语,AlphaGo的研发思路并不难理解。
人类高手下围棋时,脑子里更多是把整个棋盘当作一幅图像在进行“图像处理”,而不是象国际象棋高手那样主要在逻辑推理。AlphaGo就引入在图像识别领域的神器“深度学习”,构造了“策略网络”来模仿人类高手看到棋局时的直觉选点。有了深度学习,这其实是很自然的一步。
人类高手还要进行局势评估,其实也是盯着棋局图像看。因此,同样做一个“价值网络”让AI可以直接对一个局面进行胜率评估,也容易理解。但这很有难度,因为训练策略网络时,一局棋机器可以学习上百手,但价值网络为了独立性,一局最好只学习一个局面。深度学习是需要上百万个样本的,对策略网络人类高手下的十来万局棋足够了。Deepmind创新地让众多服务器暴力自我对弈生成了3000万棋局,用于价值网络的训练。这个暴力一开始难以想到,但有这个条件了,这么想也是自然的。腾讯开发绝艺时,也这么办了,机器自我对弈了30亿局。
有了策略与价值网络,再加上以前就有的蒙特卡洛搜索,机器就能以很高的水平下棋了。然后机器疯狂地自我对弈,产生棋局,用这些棋局回头去改善策略与价值网络,一代代循环改善,这就是“强化学习”。
但是按《自然》论文,AlphaGo自我对弈的训练框架其实是比较简单的。就是自我对弈出了结果,然后用这局的结果当一个数据项,回头修改策略与价值网络的系数。由于系数多达几百M,这种反复自我对弈来回改进需要很多局才告一段落出一个新版,一次需要一个月。
这有点象是人类高手在网上互相下。下完出了结果,有一方输了,然后就散伙走人了。输的人想,我换点着法吧,又去下,有进步觉得自己换对了,没进步就否了再想别的招算了。这输的人进步也就比较慢。
实际上人类高手是很崇尚复盘的,一般正式对局结束了不会立刻走人,而是细细总结下双方哪里下得不好,败招胜招都是些啥。有时复盘甚至会搞两三个小时,旁观的高手也来。有时人类高手还会搞“研究会”或者“国家队”,组团研究新型,研究“秘密武器”。如果棋手能积极参与这些复盘,或者有渠道了解到集体复盘得出的有价值信息,再去网上演练与实战对局,进步速度会比较快。
陈经:柯洁与AlphaGo第二局的精彩看点:https://www.2ndflr.com/dm/shijie/911315.html相关问答
- 2024-03-08围棋AI哪家强:AlphaGo已成传说 绝艺
- 2017-10-06Google,AlphaGo,阿尔法狗,人工智能,原理