微软亚洲研究院推AI麻将系统,未来或用于预测金融市场

[摘要]金融市场预测、物流优化等行业均与麻将有着相似的规则。
2020年4月2日消息,去年8月,微软亚洲研究院详细介绍了一款AI系统,命名为超级凤凰Super Phoenix ,简称Suphx。据悉,该系统仅从5000场次的麻将比赛中进行深度学习,即可击败其他玩家。本周,一份论文中显示,Suphx的性能将随着额外训练的增加而提高,在一家总部在日本,拥有35万会员的在线麻将竞赛平台Tenhou上,Suphx的排名已经超过99.99%的人类玩家。

 

该论文中写道,目前,金融市场预测、物流优化等等行业均与麻将有着相似的规则,即复杂的操作、奖励规则,不完善、不对等的信息。论文的著作者认为,Suphx是为麻将专门设计的AI技术,包括全球政策、红利预测、指导等,在为世界性的应用方面具有很大的潜力。

 

论文作者指出,麻将作为一种信息不完善的游戏,具有复杂的计分规则,一轮失利不意味着玩家打得不好。玩家可能通过战术确保自己获得较高的排名,除此之外,麻将还可能有很多获胜者,不同的获胜者在每轮的分数是不同的。

 

基于以上这些特点,Suphx的设计包括一个卷积神经网络组,通常用于计算机视觉的AI模型,来处理不同的场景,如丢弃模型、吃 牌模型、自摸模型等等,Suphx采用了一系列模型规则来决定参与者是否胜出。

 

Suphx的训练过程大致分为三步,首先,从Tenhou平台上收集的顶级人类玩家的日志来训练其所有的模型。然后,使用一组基于CPU的麻将模拟器和基于GPU的推理引擎进行自行学习,自我微调。最后,在在线游戏期间,调整运营策略使得系统运行更流畅。

 

在强化学习的过程中,每一个麻将模拟器都会随机初始化一款游戏,Suphx作为玩家和其他三个AI对手进行对战,当四个玩家中的一个有所动作时,模拟器将会把当前的状态发送到GPU推理引擎中,然后由GPU推离引擎将动作反馈给模拟器,同时,推离引擎还将会提取新的策略,以确保其自动策略的准确性。

 

中国软件网了解到,该团队对20个Nvidia Tesla K80 GPU上的Suphx进行了​​评估,从超过一百万个游戏的数据集中采样了80万个游戏,精确地进行了1000次。在实验之前,他们在两天的过程中使用了150万个游戏,在44个GPU上训练了每个模型(其中4个Nvidia Titan XP用于参数服务器,而40 K80用于自玩游戏)。

 

在Tenhou对人类玩家进行了超过5760场比赛之后,Suphx的成绩达到了前180名,并且在稳定排名方面高于人类的成绩。有趣的是,研究人员报告说Suphx的防守非常强大,但交易率非常低,且开发出了自己的比赛风格,可以确保牌面安全并赢得半场胜利。

 

中国软件网认为,跨行业的深度学习系统或许会有意外惊喜,如前文所述麻将是一款较为特殊的游戏,而复杂的游戏模型对于研究其他复杂行业有一定帮助。当在某一复杂领域无法突破时,来自其他行业的模型或者解决方案或能提供新的思路。




版权声明:

凡本网注明”来源:中国软件网(http://www.soft6.com)”的所有作品,版权均属于中国软件网或昆仑海比(北京)信息技术有限公司,未经本网书面授权,不得转载、摘编或以其它方式使用上述作品。

任何行业、传播媒体转载、摘编中国软件网(http://www.soft6.com)刊登、发布的产品信息及新闻文章,必须按有关规定向本网站载明的相应著作权人支付报酬并在其网站上注明真实作者和真实出处,且转载、摘编不得超过本网站刊登、转载该信息的范围;未经本网站的明确书面许可,任何人不得复制或在非本网站所属的服务器上做镜像。

本网书面授权使用作品的,应在授权范围内使用,并按双方协议注明作品来源。违反上述声明者,昆仑海比(北京)信息技术有限公司将追究其相关法律责任。