“哗啦哗啦”的麻将声,总是能把人带入悠闲的四川想象,因为麻将老少皆宜,所以麻将被贴上了“寻常百姓”娱乐的标签。即便麻将老少皆宜,即便寻常百姓,但很多人还是不理解,为什么微软要做一个麻将AI?相比国际象棋、围棋、桥牌,麻将听起来似乎不那么“高大上”。科学家们为什么总喜欢针对象棋、围棋、麻将来研究AI?麻将AI背后又有什么现实意义?
微软亚洲研究院副院长刘铁岩在接受《中国电子报》记者采访时说:“其实麻将AI比起象棋、围棋AI要难得多,也要复杂得多,而且麻将AI的研究,有助于破解很多现实难题。”
Suphx怎么样?
8月29日,在上海举行的2019世界人工智能大会上,微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋公布了一个消息:微软亚洲研究院所做的麻将AI系统Suphx(超级凤凰)在国际知名的专业麻将平台“天凤”上荣升十段。
麻将十段意味着什么?微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文,在接受《中国电子报》记者采访时透露,“目前在天凤平台上,全世界的人能进10段和11段的,加起来也不到30人。”这意味着Suphx创造了目前AI系统在麻将领域取得的最好成绩,接近或是超过人类的TOP30强水平。
从介绍来看,天凤是日本C-EGG公司运营维护的专业麻将平台,上面有全球33万麻将玩家,其中大量是专业选手。很多人知道桥牌、围棋、象棋有专业选手,但没有想到麻将也有专业选手。天凤平台给高水平的选手提供有两个房间,“特上房”是公开房间,供4段以上所有玩家免费开放,“凤凰房”为私有房间,仅对7段以上人类付费玩家开放。Suphx是从今年3月开始,在“特上房”与人类玩家进行5000场次的比赛后,获得了此名次,进入10段。
为什么要选择麻将?难道麻将会比象棋、围棋更“高大上”更难吗?刘铁岩的解释是,相比于信息比较完整、逻辑性强的象棋、围棋等棋类游戏,麻将属于非完美信息的游戏,存在大量隐藏信息,具有高度的不确定性。因此仅仅靠算力根本无法解决问题,需要更强的直觉、预测、推理和模糊决策能力。
玩过麻将的都知道,麻将有“杠”、“碰”、“吃”等各种变数,因为隐含了诸多信息所以充满了很多运气成分。“那些游戏更游戏,而麻将这类的棋牌游戏更AI。”刘铁岩说,因为麻将本身并没有像其它类游戏那样,需要由控制键盘而来决定出招快慢,它更多关注策略,把不必要的、人和机器的差别抹掉,体现的是智慧智能的作用。
“象棋、跳棋、西洋棋、围棋中下棋时对方走的步骤你完全看得到,没有任何的隐藏信息,但在麻将中玩家的信息是不对称的,属于非完美信息游戏(imperfect information game),这致使麻将在打牌的过程中存在大量隐藏信息,具有高度的不确定性、随机性,玩麻将时技术差的人也可能先胡,这就是趣味。”洪小文说:“但如果下围棋,没有学过的、没有经验的就永远下不赢有经验的,现在人更是下不赢计算机。”
当微软的麻将AI Suphx出来,人们必然会将其与AlphaGo、AlphZero进行比较。从微软给出的信息看,围棋其实信息完整、逻辑性强,这就意味着有了蒙特卡洛树搜索算法、借助价值网络与策略网络两种深度神经网络,通过价值网络来评估大量选点,并通过策略网络选择落点,只要计算力够强大,就能够算出各种可能性来。即便是Zero看起来比AlphaGo前进了一大步,洪小文认为,“那其实也只是一个必然,只是需要更多的计算力,所以云计算才那么重要。”从这样的维度看,麻将AI比围棋、象棋AI要难得多,要高级得多,因为麻将身上有海量的隐藏信息、复杂的奖励机制和巨大的状态空间,它不仅仅是有简单算法和强大计算力就能够完成。
Suphx发明了什么?
科学家之所以选择一个对象进行“刨根问底”,是希望想探究背后的为什么,找到后面的规律,发现背后的AI新算法、AI方法论和新工具。
此前刘铁岩曾经在接受采访时表示,现在助力企业高端智能转型有三类人:第一类是“搬运工”,善用各种各样的开源工具,熟悉运用数据,能够利用工具去解决问题。第二类是数据科学家,对数据、对业务模式有理解,可以组合优化甚至是稍稍改变已有的工具解决问题。第三类是AI科学家,搬运工和数据科学家所使用的工具是AI科学家发明的。而微软亚洲研究院的AI科学家所思考的是要创造新的AI思想、新的AI方法论来解决问题。
那么这次推出的Suphx,它创造了什么新的AI思想和新的方法论?天凤平台官方给出关于Suphx的评价是“拓宽了AI能力边界的可能性。”
刘铁岩透露“Suphx背后关键的技术是先知教练、全盘预测、自适应的决策。”
据介绍,先知训练的基本思想是在自我博弈的训练阶段利用不可见的一些隐藏信息来引导AI模型的训练方向,使其学习路径更加清晰、更加接近完美信息意义下的最优路径,从而倒逼AI模型更加深入地理解可见信息。
全盘预测技术则是可以搭建起每轮比赛与8轮过后的终盘结果之间的桥梁。这个预测器可以理解每轮比赛对终盘的不同贡献,从而将终盘的奖励信号合理地分配回每一轮比赛之中,以便对自我博弈过程进行更加直接而有效的指导,并使得Suphx可以学会一些具有大局观的高级技巧。
自适应决策是一旦某一轮底牌给定,其状态子空间会大幅缩小;Suphx在推理阶段会根据本轮的牌局来动态调整策略,多缩小了状态子空间进行更有针对性的探索,从而更好地根据本轮牌局的演进做出自适应的决策。
当微软的科学家解了麻将AI的题,人们更关心基于麻将AI所发明的新技术有什么现实意义?
刘铁岩表示,其一是从麻将这项运动本身来看,Suphx可以帮助人类学习、提升麻将技巧,推动麻将社区发展,推广这项运动。当很多专业的麻将选手,在观察了Suphx与人类对决之后,从Suphx身上学到了许多新的东西。“原来麻将还可以这样来打”,有很多新的启示。其二是这些成果对于探索机器学习的技术边界,和解决真实场景中复杂问题有重要作用。事实上在现实社会,无论是金融投资还是智能交通都存在大量未知信息以及多人博弈、多因素选优的问题,现实社会很多问题是没有答案的,需要我们从多维度博弈后获得最终结果,所以麻将AI有助于我们破解现实中的种种难题。
洪小文说:“我们日常生活中有趣的事都有不确定性,都有不完整信息,追男女朋友,你喜欢人家,人家不一定喜欢你,还有竞争对手,这就是非完美信息。世界上真正的日常生活中的重要问题都更像麻将,而不像所谓的西洋棋或者是围棋,所以麻将AI的应用空间会很大。”
从Suphx背后能悟出什么?
我们解析Suphx是希望能够了解Suphx研发的逻辑,孵化出更多的“Suphx”。科学家们为什么会选择包括麻将、象棋、围棋等竞技游戏来作为参照对象进行AI的研发?是不是除了游戏AI就没有更好的研究对象了呢?
洪小文回应说,在AI研究中,游戏是重要的维度,但不是唯一,比如计算机视觉、语音识别就与游戏无关,而游戏从策略看很像强化学习。为什么游戏会成为AI中很重要的维度,因为游戏有规则,而现实生活中我们要把复杂事情简单化,也需要定规则,因为有了规则,有了标准,大家才能有可遵循的东西,技术也一样有了标准化才能够规模化。而做研究需要将大的问题切割为小的问题,在小的问题中定好规则再往前走,一旦这个东西相对成熟,就可以应用到具体的现实场景中。
“做基础研究的时候,在相对可控的环境里面淬炼技术;当我们掌握好了之后,落地的时候一定会有最后一公里的创新。”刘铁岩表示,虽然我们现在从Suphx中学到的技术还没有全部使用到实际应用中,但是有一部分应用已经在实际当中做了尝试。
每一个问题,其实都有众多的解题路径,那么科学家们是如何从众多的路径中找到最优的“那一个”?刘铁岩透露,微软亚洲研究院的科学家们是通过“吵架”来完成众方案、众路径的选优解法。“当我们面临一个目标问题,每个研究员有不同的想法时,我们是通过辩论类似‘吵架’的方式进行剖析,每一个人会把自己的方法和路径的好处、坏处,通过辩论的形式了解技术的本质、了解想法的来源,最终达成共识或组合、升华,最终形成最优的解决办法。”
接下来,Suphx还将有哪些演进?刘铁岩透露,Suphx所采用的是预测而不是树搜索的方式,那么接下来课题组有可能尝试将预测与搜索进行结合,看看在什么节点进行结合,而这样的结合,将对更多的实际问题解决有帮助。除此之外,是在可解释性上会进一步深化,Suphx所打的麻将究竟是什么风格?今天这些事情尚无法解释,如果能够在这些维度破题,将能够加速可解释AI的发展。
洪小文最后表示,目前Suphx使用了三个技术,有了一些解决办法。“但是还不是最优的,我们希望抛砖引玉让更多人参与进来。”