腾讯AI Lab「绝艺」LuckyJ登顶国际麻将平台
7 月 11 日,腾讯 AI Lab 宣布棋牌类 AI ‘绝艺’ LuckyJ 在国际知名麻将平台‘天凤’上达到十段水平,刷新了 AI 在麻将领域的最好成绩,体现了在非完美信息博弈游戏中的优秀决策水平,进一步提升 AI 解决现实世界问题的能力。
麻将对战中,因为无法看到对手的手牌,加上还有大量未揭开的牌,存在大量的隐藏信息,是典型的非完美信息博弈,涉及大量的决策点。同样的,现实世界中也充满了需要在非完美信息状态下做决策的场景,比如金融交易、自动驾驶、交通物流、拍卖系统等,因而,在麻将对战中训练的 AI,在这类场景中有着巨大的应用前景。
(资料图)
‘天凤’平台创建于 2006 年,拥有体系化的竞技规则和专业段位规则,受到职业麻将界的广泛认可。截至目前,天凤平台活跃人数 23.8 万,而能达到十段的仅 27 人(含 AI),不到万分之一。
相比其他麻将 AI 和人类玩家,‘绝艺 LuckyJ’不仅稳定段位更高,从零开始达到十段所需的对战局数也明显更少,仅需要 1321 局。这体现了腾讯 AI Lab 在决策 AI 方向上世界领先的技术实力。
相比其他麻将 AI 和人类玩家,绝艺 LuckyJ 稳定段位更高,从零开始达到十段所需的对战局数也明显少,仅需要 1321 局
天凤稳定段位 bootstrap 的分布,绝艺 LuckyJ 显著强于之前最强的两个日本麻将 AI(Suphx,NAGA)。LuckyJ vs Suphx p value=0.02883;LuckyJ vs NAGA p value=3e-05
值得一提的是,此前‘绝艺 LuckyJ’在国标麻将中也有亮眼表现,在线下职业选手邀请赛中,成功击败六位职业选手,成为首个战胜国标麻将顶尖职业选手的麻将 AI。
对战数据显示,在近 2000 场对局中,绝艺 LuckyJ 的平均赢番达到 1.76 番。番为国标麻将的结算单位,数值越大,说明赢得越多。
非完美信息博弈
麻将AI需要更强大的决策能力
过去半个世纪以来,游戏在人工智能的技术演变中一直都扮演了重要的角色,其多样化的情境为 AI 的训练和学习提供了便利的研究场景。从国际象棋到围棋,再到德州扑克、王者荣耀等游戏,AI 不断在游戏场景中拓展能力边界。腾讯 AI Lab 自研的‘绝艺’、‘绝悟’两款决策 AI,借助棋牌、MOBA 等多类游戏场景,探索用 AI 解决现实中的复杂问题。
不同的游戏对 AI 的能力要求也不一样,竞技类游戏 AI 项目,体现的是 AI 的博弈能力,即通过所掌握的信息来形成决策,进而战胜对手的智能。简单来看,这种博弈能力又可以分为完美信息博弈和非完美信息博弈。
围棋、象棋等游戏中,参与竞技的双方的每次决策,都可以看到全局的信息,这种情况就是完美信息博弈。AI 可以通过强大的计算力来枚举各种可能性,从而找到致胜策略。而麻将等游戏中,因为无法看到对手的手牌,加上还有大量未揭开的牌,存在大量的隐藏信息,是典型的非完美信息博弈。
麻将一共有 136 张牌,每一位玩家只能看到很少的牌,包括自己的 13 张手牌和所有人打出来的牌。牌局开始时,另外三位玩家的手牌以及墙牌都是看不到的,面对如此多的隐藏未知信息,麻将玩家的每一个决策都需要兼顾进攻和防守。
此外,在麻将的对战中,除了正常的摸牌、打牌之外,还要决定是否吃牌、碰牌、杠牌、立直以及是否胡牌。任意一位玩家的吃碰杠都会改变摸牌的顺序,这一过程也涉及了大量的决策。
如上图所示,横坐标信息集数目表示可观察状态的多少,即牌面的信息。纵坐标信息集平均大小表示隐藏信息多少,即其他所有对手的手牌的可能性。麻将对战中所包含的隐藏信息要远远大于德州扑克和围棋。
腾讯 AI Lab 在游戏环境中推进决策 AI 的能力,最终是希望AI能从虚拟走向现实,解决真实世界的复杂问题,在现实世界中也充满了需要在非完美信息状态下做决策的场景,比如金融交易、自动驾驶、交通物流、拍卖系统等。
算法创新,拓展决策AI能力边界
过去曾战胜人类的棋牌类 AI,比如围棋和扑克,包含两大核心技术要素——离线训练和在线搜索。离线训练的目的在于得到一个固定的较优的游戏策略(什么状态下做什么动作),在线搜索的目的在于根据当前实际的游戏状态,通过往前搜索很多步的方式来更精确地评价当前游戏状态下各个动作的得失,从而改善离线训练的固定游戏策略。例如,围棋 AI AlphaGo 采用的就是强化学习+蒙特卡洛树搜索;德州扑克 AI ‘冷扑大师’ 采用的就是遗憾值最小化算法 +安全子博弈搜索(一种针对非完美信息游戏搜索算法)。值得一提的是,由于德州扑克是非完美信息游戏,训练 AlphaGo 采用的算法框架完全不适用,因为蒙特卡洛树搜索要求知道对手的当前状态,而这在扑克里面是不成立的,因为对手的手牌不可见。
麻将是一类更大规模的非完美信息博弈问题。鉴于传统的强化学习针对非完美信息游戏没有收敛到最强策略的理论保证,而有理论保证的遗憾值最小化算法(表格型)计算复杂度太高。腾讯 AI Lab 的研究员提出了一种新型的策略优化算法,该算法具备传统强化学习可扩展性好的优点,又部分继承了遗憾值最小化算法的一些理论性质。相比传统的强化学习方法,该策略优化算法在非完美信息游戏中训练得到的策略更平衡(攻守兼备),也更鲁棒。结合深度学习,在不使用任何人类数据的情况下,研究人员采用该策略优化算法训练得到了绝艺 LuckyJ 的离线策略。
另一方面,目前的 AI 在围棋和德州扑克上的成功很大程度依赖于搜索算法,因为搜索可以最大程度地发挥计算机的计算优势。但是由于麻将巨大的隐藏信息存在,环境不确定性较大,传统非完美信息搜索算法在麻将面前很难发挥同样的功效。
具体来说,过去一系列非完美信息搜索算法的算法复杂度是隐藏信息数量的平方,这对于德州扑克来说可以承受(因为对手只有 2 张不可见手牌),但是对于有海量隐藏信息的麻将来说太高。
基于以上考虑,研究员引入了一种高效的非完美信息搜索技术。该技术有两大特征,一是对搜索树做了高效的变换和剪枝,避免了 AI 大量的无效搜索,极大提高了搜索效率;另一方面,区别于过去搜索与离线策略的结合方式,腾讯 AI Lab 将搜索返回的结果作为一种‘特征’输入到自研的策略神经网络。这种方式的巧妙之处在于,它既能同时在离线训练和在线决策上提供有用的信息,又不会对 AI 的效果上限造成影响。这种搜索方式解决了非完美信息搜索复杂度高难以应用于大规模博弈的问题,使深度强化学习高效结合非完美信息搜索成为可能。
应用展望:解决真实世界问题,走向通用人工智能
腾讯 AI Lab从 2017 年开始投入游戏 AI 研究,在决策 AI 及生成式 AI 两大方向取得多项领先成果。‘绝艺 LuckyJ’ 在专业领域获得的成果,体现了腾讯 AI Lab 的深度强化学习智能体通过步步进化,正逐渐向解决更复杂更多样化的问题迁移,每一次进展,都让 AI 朝解决真实世界问题的目标更近一步。
‘AI+游戏’是攻克 AI 终极研究难题——通用人工智能(AGI)的关键应用场景。在模拟真实世界的虚拟游戏中,AI 学会快速分析、决策与行动,就能执行更困难复杂的任务并发挥更大作用。由于现实生活中存在大量的隐藏信息和不确定的因素,对非完美信息游戏的研究,将有助于我们开发出适用于真实生活场景的更加‘智能’的 AI 系统。
附:专家点评
这是麻将 AI 的又一次突破,绝艺 LuckyJ 进一步拓宽了麻将 AI 的能力边界。令人感到兴奋的是,在特上房对战1000局以上的所有玩家中,绝艺 Lucky 的稳定段位排名第一。
—— 角田真吾,C-EGG(天凤平台开发公司)CEO。
‘完全没有漏洞’这是绝艺 LuckyJ 给我的第一印象。它有两个划时代的特征:
● 事故率低:人类特别喜欢打掉字牌,而绝艺 LuckyJ 在手气不好时会保留字牌等安全牌,在手气好时会直线做牌。到了中盘,它选择攻击还是防守会逐渐清晰,7 圈以后很少中途放铳,给人的印象是在每张牌上看到‘攻击、防守的参数’。
● 即使是复杂的分支也能正确地决断:绝艺 LuckyJ 熟练地运用了会留下各种和牌的可能性并根据实际情况寻找最高牌效的‘6 block’打法,并将其做到极致。我认为人类有必要从绝艺 LuckyJ 的打法中学习高水平的分支选择。
将不幸运最小化,用技术取得胜利。今天这个时候,我觉得这样一个实力超群的 AI 命名为‘LuckyJ’,也许是对玩家最大限度的谦虚吧。
—— yousei(天凤ID:黒猫@ぺろぺろ☆),日本麻将战术研究家。
‘麻将AI?!不就是和普通的单机麻将一样吗,随便菜。’这是我对麻将AI 的第一印象。但是随着大量的对局,AI 的不断更新,从一开始菜 AI,到中间的僵持,最后面对 AI 出现的无力感,不能不感叹 AI 的强大。
在绝艺 LuckyJ 和我们正式的 1800 多局对战中,AI 的胜率达到了 27%。更重要的是,AI 点炮率只有 20%。我的胜率是 27%,跟绝艺 LuckyJ 差不多,但是我的点炮率是 26%,比它足足高了 6 个百分点,完全被 AI 碾压。在数据中可以看出,绝艺 LuckyJ 在攻防两端都表现得都十分出色,充分体现了计算上的优势,让我刮目相看,祝贺腾讯在麻将 AI 上取得的成绩!
——成海华,国标麻将职业选手。最好成绩:‘雀友杯’2014年世界麻将大师邀请赛冠军。腾讯麻将麻将锦标赛年度总决赛(2018,2019)冠军。
经过数月与绝艺 LuckyJ 的对抗测试,通过分析 AI 对局,AI 无论在进攻还是防守都让我印象深刻。在进攻端,绝艺 LuckyJ 可以呈现出快速成型、保持变化、根据场况做出最佳选择;在防守端,从初期的控制节奏和方向,到后期可以精准调整、果断变张,可谓做到了违害就利、大破大立。我们通常所谓的妙手、灵光一现,甚至基于经验和感觉做出的置之死地而后生的选择,对于 AI 来说可能算是常规操作。
—— 杨磊,国标麻将职业选手,标榜麻将运动协会会长,最好成绩:2007年中国牌王赛牌王,2007年王中王比赛冠军。
在与绝艺 LuckyJ 的上千战当中,我一直惊叹于它强大的牌效和精准的读牌。我们知道围棋和麻将运动的不同点在于对局信息的不确定性。即使是这样AI在国标麻将仍然在攻防两端都做到了极致。同时AI最近在日麻上也达到了天凤十段,不得不让人惊叹:麻将运动似乎也被AI攻克了。
——黄林,国标及日本麻将职业选手。最好成绩:2018 中日麻将对抗赛团队冠军,2017北京麻将联赛冠军,2016世界麻将运动会队式赛亚军。
标签: