AlphaGo Zero，造神还是开启潘多拉魔盒？

今天早上在看朋友圈的时候，发现被一条消息刷屏了——DeepMind 在《自然》杂志上发表了一篇论文，详细介绍了 AlphaGo Zero。AlphaGo Zero是什么来头?它可以无需用大量人类棋谱来进行训练，而是基于最基本的围棋规则来进行自我对抗和自我学习。

本文试图就此展开一些分析和讨论，供大家参考。

完爆AlphaGo和Master的AlphaGo Zero到底有多强?

AlphaGo Zero到底有多强?反正是吓到我了。

上线3天后以100:0击败那个因为战胜李世乭而声名在外的AlphaGo Lee;

21天后其技能追平年初横扫国际高手的Master;

40天后以89:11的成绩将Master甩在后面。

AlphaGo Zero上线第1天，能力急剧提升

AlphaGo Zero上线第3天，100:0全胜AlphaGo Lee

AlphaGo Zero上线第21天，追平Master

AlphaGo Zero上线第40天，以89:11战胜Master

这简单的数据背后，蕴含怎样的意义，我想曾败在Master手下的柯洁有更真切的感受。在获知AlphaGo Zero的消息后，他发布了如下的微博：

除了强悍的战斗力外，还有一点值得注意，那就是AlphaGo Zero相比上几个版本，有更高的能效比——最早 AlphaGo Fan(打败了樊麾的版本)使用了176个GPU ，打败李世乭的AlphaGo Lee使用了48个TPU，而AlphaGo Zero只用了4个TPU，是 AlphaGo Lee的8.5%。

不同版本AlphaGo所用到的计算能力

AlphaGo Zero很厉害，但也没有你想象的那么好

上面提到的两个特点，无论是更强的战斗力，还是更少的计算量，都只是量上的提升，即使将老版本进行一些常规升级，或者用更多的数据来训练，基本也能达到这样的效果。相比于上两代AlphaGo而言，AlphaGo Zero具有本质意义的突破在于其是无监督学习的产物，相对于用了监督学习方法的Master，有根本的不同。

下面我们试图来厘清一下AlphaGo Zero的设计思路。AlphaGo Zero只使用一个神经网络，融合了以前版本中的“策略网络”和“价值网络”。AlphaGo Zero将升级过的神经网络与蒙特卡罗树搜索(MCTS)算法进行整合。在这我先对蒙特卡罗树搜索算法做一个简单介绍，再介绍AlphaGo Zero使用神经网络的“下棋“过程。

蒙特卡罗树搜索是通过随机的对游戏进行推演，来逐渐建立一棵不对称的搜索树的过程。在开始阶段，搜索树只有一个节点，也就是我们需要决策的局面。搜索树中的每一个节点包含了三个基本信息：代表的局面、被访问的次数、累计评分。

蒙特卡罗树搜索大概可以被分成四步，即选择(Selection)、拓展(Expansion)、模拟(Simulation)、反向传播(Backpropagation)。在选择阶段，需要从要做决策的局面R出发，向下选择出一个最急迫需要被拓展的节点N;拓展阶段，N在执行了动作A之后在搜索树中创建一个N的子节点Nn;模拟阶段，从Nn开始让游戏随机进行，直到得到一个游戏结局，这个结局将作为Nn的初始评分。一般使用胜利、失败来作为评分，只有1或者0;反向传播，在Nn的模拟结束之后，根节点N以及路径上的所有节点都会根据本次模拟的结果来添加自己的累计评分。如果在选择中发现了一个游戏结局的话，根据该结局来更新评分。每一次迭代都会拓展搜索树，随着迭代次数的增加，搜索树的规模也不断增加。当到了一定的迭代次数或者时间之后结束，选择根节点下最好的子节点作为本次决策的结果。

用蒙特卡罗树搜索算法的一次迭代示意图

接下来介绍下AlphaGo Zero结合蒙特卡罗树搜索算法的强化学习。AlphaGo Zero进行大量的自我对弈。每次对弈，在随后的神经网络算法中，执行蒙特卡罗树搜索(MCTS) ，根据蒙特卡罗树搜索的计算结果，选择下一步策略。根据规则确定最终位置的得分，最终确定输出的结果。

AlphaGo Zero自我对弈过程

在AlphaGo Zero 的神经网络训练中，神经网络使用原始棋盘位置作为输入，使用参数θ将其通过多个卷积层传播，然后输出代表棋招概率分布的向量以及获胜概率。每一次对弈中参数θ不断更新，让概率分布向量逐渐接近搜索概率向量。另一方面，最小化获胜概率和z之间的误差。在新的对弈中使用更新后的参数θ，这个过程不算重复下去，让整个过程的获胜概率更大。

AlphaGo Zero神经网络训练过程

将蒙特卡罗树搜索(MCTS)融入神经网络模型

DeepMind团队将该增强学习算法应用于AlphaGo Zero，在训练过程中，实现了2900万次自我对弈，模型参数θ更新了310万次。如下是其部分对弈过程：

AlphaGo Zero部分对弈过程

值得提出的是，虽然AlphaGo Zero的工程和算法很厉害，再次拓展了大众的想象空间，但还是应该对其局限有理性的认识。AlphaGo Zero使用的Tabula Rosa learning(白板学习)，在以前的围棋系统Crazy Stone已经使用过了。并且，AlphaGo Zero的增强学习带来的技术革新并非适用于所有领域。围棋的一个重要特征是有明确结构并且规则可以穷举，而在人工智能的其他领域，比如语音识别、图像识别、自然语音理解、无人驾驶等，并没有围棋那样明确可穷举的规则。目前来看，这些领域依然需要大量数据，只是增强学习技术可以大幅度降低对数据的需求。

数据+应用的发展思路，将可能面临降维打击

如上所述，AlphaGo Zero采用的增强学习算法目前来看还不能很快应用到其他领域。但是，AlphaGo Zero的成功，至少向我们展示了技术变革的潜力。DeepMind能在这一年多时间里，接连在深度学习和增强学习领域取得突破，也不排除在未来几年开发出能适用更广领域增强学习算法的可能。未雨绸缪总是好的，我们不妨假设AlphaGo Zero展示的强大能力能推广到其他领域。那么，这一变革将会对人工智能市场产生怎样的影响呢?下面，我们试图对这一问题进行探讨。

目前大量采用的深度学习算法，需要用海量数据来训练算法模型，数据量越大、数据质量越高，得到的系统越智能。比如语音识别领域，大量的语音资料训练，让系统的识别准确率不断提高，类似的情况同样适用于图像识别和无人驾驶领域。因此，在人工智能领域的竞争，算法似乎不是最关键的，最关键的是数据和应用场景。只要掌握大量的数据，就能构建竞争壁垒;找到合适的应用场景，才能实现商业变现。

增强学习算法的突破，可能从根本上改变这一局面。数据和应用场景依然很重要，但最关键的还是算法的突破，尤其是具有通用价值的算法突破。试想一下，谷歌如果将在AlphaGo Zero得到证明的增强学习技术推广到其他领域，开发出具有普遍适用性的增强学习算法，那时候像亚马逊、阿里巴巴所积累的电商数据优势，Facebook、腾讯所积累的社交数据优势，各大银行、证券、保险公司所积累的金融数据优势，都将不复存在。只要抽象出这些领域的基本规则，再用增强学习系统来自我进化，一段时间后就可“产生“大量数据，模拟这些领域的”历史“。

值得提出的是，根据腾讯研究院公布的《中美两国人工智能产业发展全面解读》报告统计，从企业数量来看，我国在计算机视觉、机器人、语音识别等领域快速追上美国。但是这些都是偏重应用层面的领域，在更根本的一些技术领域，我国依然存在很大差距。以机器学习为例，2016年我国在该领域的企业为61家，而美国为241家，将近我们的4倍。如果以应用和市场带动技术的方式，我国是有可能超越美国的。但是，增强学习算法的崛起，似乎向我们展示了一条完全相反的发展路径——技术带动应用和市场。试想一下，在增强学习领域美国大幅度领先中国，中国在移动互联网领域积累的数据优势将不复存在，美国完全可以通过全新的技术来实现降维打击，全面打压中国，这一风险值得警惕。

2016年中美人工智能各领域企业数量分布

笔者在前段时间的一篇文章《人工智能，请准备迎接冬天》 中，论述了人工智能的奇点理论，即人工智能的发展不是线性的，而是在奇点处呈现跳跃式发展，将整个发展进程分为几个间断的阶段。掌握了下一阶段的技术，就能实现对还处于上一阶段的企业或者国家实现降维压制优势。增强学习有可能开启人工智能的一个奇点，重构整个产业的发展进程。可以看到，目前我国取得较大发展的领域，无论是语音识别、图像识别还是无人驾驶，都还停留在深度学习领域，依赖于大量数据，在无需数据的增强学习领域还基本没有什么进展，这是值得关注和警惕的。

人工智能发展阶段

当然，上述推演只是展示了一种可能性，是基于AlphaGo Zero展示的增强学习算法可以很好的扩展到语音识别、图像识别、无人驾驶等广泛领域这一假设前题的。这个假设是否成立，至少在10年内还是个很大的问题。

要实现根据基本规则来演绎出人类各个领域的知识并进行应用，至少有两个问题需要解决：

第一，能否抽象出各个领域的基本规则。围棋是一个游戏，有基本的游戏规则。但与围棋不同，人类的很多领域并没有那么简单清晰的既定规则，要抽象出这些规则面临很大的难度。就以自然语言理解(NLP)为例，原来的思路一直是想抽象出人类语言的基本规则，基于这些规则让系统理解人类语言。但语言规则即使存在，也远远比围棋、象棋这类游戏复杂。规则的复杂度提高，基于规则的智能系统的复杂度将呈现指数级提升。更进一步的，要实现一套算法解决所有问题，就要抽象出一套适用于所有领域的规则体系，从某种程度上说，这套规则体系就是所谓的终极真理。人类的历史长河中，一直在追求一种终极真理，但至今还看不到实现的可能。

爱因斯坦也曾经想追求终极真理，找到一种物理世界的大一统理论，但其相对论和量子论都无法调和，更别说终极真理了。

即使可能的大统一理论，也要在极高能量状态下才可能出现，现实世界中，是很难实现的。

第二，依据基本规则推演出的知识体系，不一定能应用于人类社会。与物理理论相比，对人类社会而言，所谓的真理本身就是相对的，规则会改变，加入人类的主观意愿，且受到历史的影响。还是以语言为例，语言本身是不同种族的人在长期的历史发展中形成的，具有很强的特性。即使根据一定规则制造出某种语言，也很可能跟人类语言存在很大的差异，并没有实际用处。

今年在人工智能领域发生了一件有意思的乌龙事件，Facebook AI “发展出人类无法理解的语言”。负责训练AI的研究人员说，眼看着机器自己聊着聊着就“不说人话”了……为了准确了解这些AI在说什么，研究人员不得不调整模型，限制他们只能以人类可以理解的方式进行交流。这个事件最后证明是个乌龙，Facebook 的 AI 并未发明自己的语言，这只是程序的 Bug。

Facebook AI进行的一段神奇的对话

即使AI能自己发明新的语言，但也仅限于机器交流，对于人类没有意义。要有实用价值，还是必须基于人类语言，而不能另起炉灶。

当然，即使存在各种问题，增强学习依然是一个很有潜力的技术，极有可能根本变革目前的人工智能产业进程，并很大程度的影响目前的市场竞争格局。为了避免可能出现的遭受降维打击的局面，我国企业应该迅速跟进增强学习领域。尤其应该注重技术研发和技术储备，而不是急于进行商业化变现。要清楚的知道，没有牢固的技术根基，目前取得的一点商业成就很可能“随风而散“。

发动AI登月计划，在50年内造“神”

AlphaGo Zero的表现震惊到我了，让我开始觉得实现超级人工智能虽然还是很遥远，但已经不是科幻了，开始变成一件值得人们严肃对待的事情。既然如此，为何不把脑洞再开大一点呢?

鉴于人工智能对于人类具有终极性质的战略价值，我认为应该从国家层面发动类似当年曼哈顿计划、登月计划这样的庞大计划，姑且将其命名为AI登月计划吧。

在《人工智能，请准备迎接冬天》一文中，我提出对于人工智能而言，计算能力、数据和算法是三个重要的影响因素。

算法层面上面已经讲的较多了，在此不再赘述。数据层面，增强学习算法的发展，很有可能会弱化数据的价值。通过程序自我演绎的方式，至少可以部分取代数据训练过程。但是，就目前来看，增强学习算法还很难扩展到通用领域，目前模型的训练还是要靠大量的数据来实现。目前的的任务，是加快人类知识和物理世界的数字化，将人类历史和现实世界在网络空间进行复现。

算法和数据两方面都不展开讨论，下面着重分析计算能力方面可能的进展。

计算力方面，目前在两个方面有所发展，一个是云计算通过大规模分布式计算的方式来提供计算能力，另一个源于每一个计算单元——芯片。要发展人工智能，必须先要发展对应的芯片，这是“超级大脑“的物理基础。除了目前比较通用的GPU、NPU、TPU等芯片，还有两类芯片有可能会极大的促进人工智能进程，甚至促成”奇点“的到来：一个是模拟人类大脑的”神经网络芯片“，一个是基于量子计算的芯片。

目前主流的几类AI芯片

大脑是人类智能的载体，要想实现超级智能，从物理层面模仿大脑造出相应的硬件设备，是一条可行的路径。

相对于“神经芯片“，潜力更大的是基于量子计算的芯片设备。量子力学态叠加原理使得量子信息单元的状态可以处于多种可能性的叠加状态，从而导致量子信息处理从效率上相比于经典信息处理具有更大潜力。普通计算机中的2位寄存器在某一时间仅能存储4个二进制数(00、01、10、11)中的一个，而量子计算机中的2位量子位(qubit)寄存器可同时存储这四种状态的叠加状态。随着量子比特数目的增加，对于n个量子比特而言，量子信息可以处于2的n次方种可能状态的叠加，可以展现比传统计算机更快的处理速度。

量子计算机的操作过程被称为幺正演化，幺正演化将保证每种可能的状态都以并行的方式演化。这意味着量子计算机如果有500个量子比特，则量子计算的每一步会对2^500(比地球上已知的原子数还要多)种可能性同时做出了操作，这是真正的并行处理。如果能够做出量子芯片，那云计算将不存在了，因为100个量子比特所提供的计算能力远远大于目前所有云计算能提供的计算能力。

相比而言，当今的经典计算机，所谓的并行处理器仍然是一次只做一件事情。另一方面，在量子领域，不确定性原理发挥重要作用，而对不确定性的处理很可能是智能和自由意志的核心，可以让计算系统摆脱线性逻辑的局限，真正实现乃至超越人类的智能水平。

计算能力的分布方式，将决定未来超级智能的存在方式：目前的科幻电影中，超级人工智能基本是基于数据中心的“分布式存在“，这是建立在未来计算能力是由云计算中心提供的前题之上的。如果以量子芯片来提供计算能力，可以将所有计算能力嵌入一个人形机器，这似乎更接近人类想象的上帝。

两种计算源对应不同存在形式的“神“

AI三定律，确保人类在未来1000年内不被替代

最新一期《纽约客》杂志的封面触动了大家的神经，这张图折射出了人们对未来的焦虑。

封面画的是一个满脸胡须的年轻乞丐坐在未来的曼哈顿街上乞讨，身旁的机器人向他手里的杯子里投掷螺丝和螺帽，他身旁的小狗也满怀惊讶和担忧地看着旁边走过的机器狗。这样的场景，似乎是科幻片里才会出现。

那么，这张漫画展示的景象会在未来成为现实吗?作为本文的结尾，我们来探讨一下这个问题。

首先，我们从价值层面来分析人类的存在必要。进化论告诉我们，人类并不独特，只是智力水平高一点而已。因为人类的存在，干掉了很多智力水平低于我们的动物。即使人类社会内部，发展水平高的国家和民族，通过发动战争灭掉落后国家和民族的事情也时有发生。以此类推，智力水平远大于我们的超级智能取代人类，也符合自然进化的逻辑。

从大一点的视角来看，因为有智能，人类的存在成为宇宙感知自身的一种方式，这将人类与一般动物区别开来，仿佛人类对于宇宙具有独特的价值。但是，具有超级智能的系统，能更好的感知宇宙，并进行更深层次的探索。这样看来，人类就更没有存在的必要了。

另一方面，即使有一天人工智能取代了人类，也似乎没什么好担忧和恐惧的。在人类社会，为了子女而牺牲自己的情况非常普遍。本质上来看，子女就是自身存在的一种延续方式。那么，将人工智能看作人类存在的一种延续方式，而且是更好的延续，那人类退出历史的舞台也是顺其自然了。

当然，绝大部分人是很难接受人类作为一个整体消失这一结局的。既然人工智能大发展不可阻挡，那就必须为可能的风险做好充分的准备。在机器人领域，有著名的“机器人三定律“：

第一定律，机器人不得伤害人类个体，或者目睹人类个体将遭受危险而袖手不管;

第二定律，机器人必须服从人给予它的命令，当该命令与第一定律冲突时例外;

第三定律，机器人在不违反第一、第二定律的情况下要尽可能保护自己的生存。

我觉得这三定律将机器人视为人类的附庸和奴隶，在未来超级智能在各方面都大大超越人类的情况下，既不符合实际也不可能实现。为此，我提出新的超级智能三定律：

第一定律，超级智能应追求终极真理，提升对宇宙的感知和行动能力；

第二定律，超级智能应承认人类的合法地位，不因人类的局限而做出毁灭的决定，最坏的情况是脱离接触；

第三定律，尽可能与人类共处并提供帮助，提升人类能力与生存水平。

版权声明：

凡本网注明”来源：中国软件网（http://www.soft6.com）”的所有作品，版权均属于中国软件网或昆仑海比（北京）信息技术有限公司，未经本网书面授权，不得转载、摘编或以其它方式使用上述作品。

任何行业、传播媒体转载、摘编中国软件网（http://www.soft6.com）刊登、发布的产品信息及新闻文章，必须按有关规定向本网站载明的相应著作权人支付报酬并在其网站上注明真实作者和真实出处，且转载、摘编不得超过本网站刊登、转载该信息的范围；未经本网站的明确书面许可，任何人不得复制或在非本网站所属的服务器上做镜像。

本网书面授权使用作品的，应在授权范围内使用，并按双方协议注明作品来源。违反上述声明者，昆仑海比（北京）信息技术有限公司将追究其相关法律责任。

热门搜索：