阿尔法“Zero”版与李世石版大战100局,100比0。

AlphaGo Zero

今天(10月19日)凌晨,谷歌旗下Deepmind团队在《自然》杂志发表人工智能界期待已久的论文《无须人类知识掌握围棋》(Mastering the game of go without human knowledge),印证了一个人们已经猜到的事实:今天的阿尔法围棋(AlphaGo)已经完全不是人了。

阿尔法围棋于2015年10月面世,击败欧洲冠军樊麾;2016年3月击败人类顶尖棋手之一李世石;2017年元旦前后在网络上化名大师(Master),60比0完败前来车轮战的人类一流棋手;2017年5月在乌镇3比0战胜当下人类最强者柯洁。

随后,Deepmind团队放出阿尔法围棋自战50局,人类陷入迷茫,完全看不懂。读完论文,就明白了为什么。

阿尔法演化得太快。

阿尔法樊麾版和李世石版是阿尔法围棋1.0版。它用了三种算法,策略网络加价值网络加蒙特卡洛树搜索,分别对应于人类的棋步选择、形势判断和深算;训练时,阿尔法1.0版走的是监督学习+强化学习路线,所谓监督学习,就是用人类的棋谱喂它,在此基础上,自我对弈,强化学习。阿尔法以人为师,学了半年,战胜人类。

到了阿尔法大师,已进化到阿尔法1.5版。大师仍然以人为师,但不再是三种算法并行,而是化归为一种创新的自我强化学习算法。如果我没读错论文的话,大体是自我对弈,用蒙特卡洛树搜索寻找最优下法,将输出结果作为输入值重新跑算法,如是反复迭代。

大师很强,但还是人的围棋。今天面世的论文则介绍了非人的围棋,阿尔法围棋2.0。除了使用新的自我强化学习算法,它完全放弃监督学习,而是直接从围棋规则开始,自我对弈,跑强化学习算法。

论文解释,在现实生活中,专业数据集往往昂贵或不可得,甚至可能给机器增加一层“天花板”。完全让机器自学,才有可能让它超越人类的局限性,发现前所未见的新方法。

这个阿尔法从零开始,所以,它的名字叫作零(Zero)。

谷歌用这个名字告诉人类,零需要的人类知识是零。它完全没有向人学棋,通过自我对弈学习。学到第36个小时的时候,已经超过李世石版;学过三天,自我对弈490万局,学成出关。

阿尔法零与李世石版大战100局,100比0。 与战绩一边倒相应的是算力消耗的一边倒:阿尔法零是单机版,只用4个TPU,李世石版使用了176个GPU(图形处理器)和48个TPU,而且学习时间是好几个月。

算法优化提升效率太多,大量减少对算力的要求。这篇论文因为提交时间较早没来得及提到,但我猜在乌镇战胜柯洁的那个阿尔法,肯定已是零——这次只带一台机器过来就可以了。

有意思的是,阿尔法零在预测职业棋手的下一步上,并不如李世石版精确,这说明零下的棋跟人下的棋已经不是同一种围棋:它不需要预知人类的下一步,因为人类下得有点差。

上图是零的成长图,中间那条有从0到72数值的是时间线,对应着从创世到72小时。

从时间线引出来的虚线,指向与相对应的零下的棋。作为一个人类棋手,我看着很感慨:从零开始,它稳定、迅速地变强。

3小时,零在乱下。

10小时,发现简单定式。

16小时,发现小雪崩定式。

19小时,发现死活、厚势与实地的逻辑。

24小时,发现小目一间高挂定式。

36小时,也就是超越李世石版的时候,发现星位一间夹点角定式。

55小时,发现非人类定式。

72小时,出关。

人类学习的时间线是什么样的呢?今天的世界冠军级棋手,5岁学棋,15岁出关,20岁前拿冠军,否则终身无望。

人类学棋十几年,不如阿尔法零学3天。

阿尔法零出关后,在内部测试中,Deepmind团队用更大的神经网络,更长的时间(40天),更多的自我对弈(2900万局),训练了一个加强版的阿尔法零,与阿尔法大师对战100番棋,89比11胜出。

阿尔法围棋各个版本的Elo积分如下,:

阿尔法零(加强版的AlphaGo Zero): 5182

击败当下第一人柯洁

阿尔法大师(AlphaGo Master):4858

60比0击败人类一流棋手团

阿尔法李世石(AlphaGo Lee): 3739

击败世界冠军级棋手李世石

阿尔法樊麾(AlphaGo Fan): 3144

击败欧洲冠军樊麾

附带解开了一个谜。乌镇大战时,Deepmind团队表示当时的阿尔法围棋能让一年前击败李世石的那个版本三个子。棋界虽早已服膺阿尔法的棋力,但仍然认为让三个子是天文数字,不可能。现在,从积分上看,阿尔法零让李世石版三个子当无问题。

这当然不是说柯洁能让李世石三个子,而是说乌镇大战虽然表面激烈但柯洁没有一点机会,一切尽在阿尔法零的算中,真正是深不可测。

也有个好消息,很可能我们已经看到围棋之神的轮廓。它长得跟阿尔法零差不多。

阿尔法零与阿尔法大师算法相同,区别只在于一个自已学,一个向人类学,虽然两者对战中零以大比分压倒大师,但也不是没有胜负。89比11的比分说明两点:

第一,正如论文结论所说,哪怕是在围棋这类极有挑战性的领域,纯粹强化学习路径完全可行。只需知道规则,无需预备知识,没有先例,不用人类指导,仍能通过训练达到超人水平。人类下了千年围棋,累积了数百万张棋谱,集体智慧凝聚的知识,在几天之间,就被阿尔法零重新发现,还找到了人类闻所未闻的新策略,为这最古老的游戏注入了新内涵。

第二,即使如此,阿尔法零与阿尔法大师仍是有胜负的,零强过大师,但边际改进已迅速下降。围棋之神的Elo积分,我大胆猜测,6000分打住了。

这个判断对不对?只能等量子计算机出关以后能不能再度刷新认知了。量子计算机利用量子力学的态叠加原理,算力远远胜过传统计算机。全世界走在最前面的也是谷歌的量子计算机,使用22位的量子位(quabits)计算。

相关链接
近期热门文章