腾讯AI Lab「绝艺」LuckyJ登顶国际麻将平台

2023-07-12 12:13:36 来源：新浪体育综合

7 月 11 日，腾讯 AI Lab 宣布棋牌类 AI ‘绝艺’ LuckyJ 在国际知名麻将平台‘天凤’上达到十段水平，刷新了 AI 在麻将领域的最好成绩，体现了在非完美信息博弈游戏中的优秀决策水平，进一步提升 AI 解决现实世界问题的能力。

麻将对战中，因为无法看到对手的手牌，加上还有大量未揭开的牌，存在大量的隐藏信息，是典型的非完美信息博弈，涉及大量的决策点。同样的，现实世界中也充满了需要在非完美信息状态下做决策的场景，比如金融交易、自动驾驶、交通物流、拍卖系统等，因而，在麻将对战中训练的 AI，在这类场景中有着巨大的应用前景。

(资料图)

‘天凤’平台创建于 2006 年，拥有体系化的竞技规则和专业段位规则，受到职业麻将界的广泛认可。截至目前，天凤平台活跃人数 23.8 万，而能达到十段的仅 27 人（含 AI），不到万分之一。

相比其他麻将 AI 和人类玩家，‘绝艺 LuckyJ’不仅稳定段位更高，从零开始达到十段所需的对战局数也明显更少，仅需要 1321 局。这体现了腾讯 AI Lab 在决策 AI 方向上世界领先的技术实力。

相比其他麻将 AI 和人类玩家，绝艺 LuckyJ 稳定段位更高，从零开始达到十段所需的对战局数也明显少，仅需要 1321 局

天凤稳定段位 bootstrap 的分布，绝艺 LuckyJ 显著强于之前最强的两个日本麻将 AI（Suphx，NAGA）。LuckyJ vs Suphx p value=0.02883；LuckyJ vs NAGA p value=3e-05

值得一提的是，此前‘绝艺 LuckyJ’在国标麻将中也有亮眼表现，在线下职业选手邀请赛中，成功击败六位职业选手，成为首个战胜国标麻将顶尖职业选手的麻将 AI。

对战数据显示，在近 2000 场对局中，绝艺 LuckyJ 的平均赢番达到 1.76 番。番为国标麻将的结算单位，数值越大，说明赢得越多。

非完美信息博弈

麻将AI需要更强大的决策能力

过去半个世纪以来，游戏在人工智能的技术演变中一直都扮演了重要的角色，其多样化的情境为 AI 的训练和学习提供了便利的研究场景。从国际象棋到围棋，再到德州扑克、王者荣耀等游戏，AI 不断在游戏场景中拓展能力边界。腾讯 AI Lab 自研的‘绝艺’、‘绝悟’两款决策 AI，借助棋牌、MOBA 等多类游戏场景，探索用 AI 解决现实中的复杂问题。

不同的游戏对 AI 的能力要求也不一样，竞技类游戏 AI 项目，体现的是 AI 的博弈能力，即通过所掌握的信息来形成决策，进而战胜对手的智能。简单来看，这种博弈能力又可以分为完美信息博弈和非完美信息博弈。

围棋、象棋等游戏中，参与竞技的双方的每次决策，都可以看到全局的信息，这种情况就是完美信息博弈。AI 可以通过强大的计算力来枚举各种可能性，从而找到致胜策略。而麻将等游戏中，因为无法看到对手的手牌，加上还有大量未揭开的牌，存在大量的隐藏信息，是典型的非完美信息博弈。

麻将一共有 136 张牌，每一位玩家只能看到很少的牌，包括自己的 13 张手牌和所有人打出来的牌。牌局开始时，另外三位玩家的手牌以及墙牌都是看不到的，面对如此多的隐藏未知信息，麻将玩家的每一个决策都需要兼顾进攻和防守。

此外，在麻将的对战中，除了正常的摸牌、打牌之外，还要决定是否吃牌、碰牌、杠牌、立直以及是否胡牌。任意一位玩家的吃碰杠都会改变摸牌的顺序，这一过程也涉及了大量的决策。

如上图所示，横坐标信息集数目表示可观察状态的多少，即牌面的信息。纵坐标信息集平均大小表示隐藏信息多少，即其他所有对手的手牌的可能性。麻将对战中所包含的隐藏信息要远远大于德州扑克和围棋。

腾讯 AI Lab 在游戏环境中推进决策 AI 的能力，最终是希望AI能从虚拟走向现实，解决真实世界的复杂问题，在现实世界中也充满了需要在非完美信息状态下做决策的场景，比如金融交易、自动驾驶、交通物流、拍卖系统等。

算法创新，拓展决策AI能力边界

过去曾战胜人类的棋牌类 AI，比如围棋和扑克，包含两大核心技术要素——离线训练和在线搜索。离线训练的目的在于得到一个固定的较优的游戏策略（什么状态下做什么动作），在线搜索的目的在于根据当前实际的游戏状态，通过往前搜索很多步的方式来更精确地评价当前游戏状态下各个动作的得失，从而改善离线训练的固定游戏策略。例如，围棋 AI AlphaGo 采用的就是强化学习+蒙特卡洛树搜索；德州扑克 AI ‘冷扑大师’ 采用的就是遗憾值最小化算法 +安全子博弈搜索（一种针对非完美信息游戏搜索算法）。值得一提的是，由于德州扑克是非完美信息游戏，训练 AlphaGo 采用的算法框架完全不适用，因为蒙特卡洛树搜索要求知道对手的当前状态，而这在扑克里面是不成立的，因为对手的手牌不可见。

麻将是一类更大规模的非完美信息博弈问题。鉴于传统的强化学习针对非完美信息游戏没有收敛到最强策略的理论保证，而有理论保证的遗憾值最小化算法（表格型）计算复杂度太高。腾讯 AI Lab 的研究员提出了一种新型的策略优化算法，该算法具备传统强化学习可扩展性好的优点，又部分继承了遗憾值最小化算法的一些理论性质。相比传统的强化学习方法，该策略优化算法在非完美信息游戏中训练得到的策略更平衡（攻守兼备），也更鲁棒。结合深度学习，在不使用任何人类数据的情况下，研究人员采用该策略优化算法训练得到了绝艺 LuckyJ 的离线策略。

另一方面，目前的 AI 在围棋和德州扑克上的成功很大程度依赖于搜索算法，因为搜索可以最大程度地发挥计算机的计算优势。但是由于麻将巨大的隐藏信息存在，环境不确定性较大，传统非完美信息搜索算法在麻将面前很难发挥同样的功效。

具体来说，过去一系列非完美信息搜索算法的算法复杂度是隐藏信息数量的平方，这对于德州扑克来说可以承受（因为对手只有 2 张不可见手牌），但是对于有海量隐藏信息的麻将来说太高。

基于以上考虑，研究员引入了一种高效的非完美信息搜索技术。该技术有两大特征，一是对搜索树做了高效的变换和剪枝，避免了 AI 大量的无效搜索，极大提高了搜索效率；另一方面，区别于过去搜索与离线策略的结合方式，腾讯 AI Lab 将搜索返回的结果作为一种‘特征’输入到自研的策略神经网络。这种方式的巧妙之处在于，它既能同时在离线训练和在线决策上提供有用的信息，又不会对 AI 的效果上限造成影响。这种搜索方式解决了非完美信息搜索复杂度高难以应用于大规模博弈的问题，使深度强化学习高效结合非完美信息搜索成为可能。

应用展望：解决真实世界问题，走向通用人工智能

腾讯 AI Lab从 2017 年开始投入游戏 AI 研究，在决策 AI 及生成式 AI 两大方向取得多项领先成果。‘绝艺 LuckyJ’ 在专业领域获得的成果，体现了腾讯 AI Lab 的深度强化学习智能体通过步步进化，正逐渐向解决更复杂更多样化的问题迁移，每一次进展，都让 AI 朝解决真实世界问题的目标更近一步。

‘AI+游戏’是攻克 AI 终极研究难题——通用人工智能（AGI）的关键应用场景。在模拟真实世界的虚拟游戏中，AI 学会快速分析、决策与行动，就能执行更困难复杂的任务并发挥更大作用。由于现实生活中存在大量的隐藏信息和不确定的因素，对非完美信息游戏的研究，将有助于我们开发出适用于真实生活场景的更加‘智能’的 AI 系统。

附：专家点评

这是麻将 AI 的又一次突破，绝艺 LuckyJ 进一步拓宽了麻将 AI 的能力边界。令人感到兴奋的是，在特上房对战1000局以上的所有玩家中，绝艺 Lucky 的稳定段位排名第一。

—— 角田真吾，C-EGG（天凤平台开发公司）CEO。

‘完全没有漏洞’这是绝艺 LuckyJ 给我的第一印象。它有两个划时代的特征：

● 事故率低：人类特别喜欢打掉字牌，而绝艺 LuckyJ 在手气不好时会保留字牌等安全牌，在手气好时会直线做牌。到了中盘，它选择攻击还是防守会逐渐清晰，7 圈以后很少中途放铳，给人的印象是在每张牌上看到‘攻击、防守的参数’。

● 即使是复杂的分支也能正确地决断：绝艺 LuckyJ 熟练地运用了会留下各种和牌的可能性并根据实际情况寻找最高牌效的‘6 block’打法，并将其做到极致。我认为人类有必要从绝艺 LuckyJ 的打法中学习高水平的分支选择。

将不幸运最小化，用技术取得胜利。今天这个时候，我觉得这样一个实力超群的 AI 命名为‘LuckyJ’，也许是对玩家最大限度的谦虚吧。

—— yousei（天凤ID：黒猫@ぺろぺろ☆），日本麻将战术研究家。

‘麻将AI？！不就是和普通的单机麻将一样吗，随便菜。’这是我对麻将AI 的第一印象。但是随着大量的对局，AI 的不断更新，从一开始菜 AI，到中间的僵持，最后面对 AI 出现的无力感，不能不感叹 AI 的强大。

在绝艺 LuckyJ 和我们正式的 1800 多局对战中，AI 的胜率达到了 27%。更重要的是，AI 点炮率只有 20%。我的胜率是 27%，跟绝艺 LuckyJ 差不多，但是我的点炮率是 26%，比它足足高了 6 个百分点，完全被 AI 碾压。在数据中可以看出，绝艺 LuckyJ 在攻防两端都表现得都十分出色，充分体现了计算上的优势，让我刮目相看，祝贺腾讯在麻将 AI 上取得的成绩！

——成海华，国标麻将职业选手。最好成绩：‘雀友杯’2014年世界麻将大师邀请赛冠军。腾讯麻将麻将锦标赛年度总决赛（2018，2019）冠军。

经过数月与绝艺 LuckyJ 的对抗测试，通过分析 AI 对局，AI 无论在进攻还是防守都让我印象深刻。在进攻端，绝艺 LuckyJ 可以呈现出快速成型、保持变化、根据场况做出最佳选择；在防守端，从初期的控制节奏和方向，到后期可以精准调整、果断变张，可谓做到了违害就利、大破大立。我们通常所谓的妙手、灵光一现，甚至基于经验和感觉做出的置之死地而后生的选择，对于 AI 来说可能算是常规操作。

—— 杨磊，国标麻将职业选手，标榜麻将运动协会会长，最好成绩：2007年中国牌王赛牌王，2007年王中王比赛冠军。

在与绝艺 LuckyJ 的上千战当中，我一直惊叹于它强大的牌效和精准的读牌。我们知道围棋和麻将运动的不同点在于对局信息的不确定性。即使是这样AI在国标麻将仍然在攻防两端都做到了极致。同时AI最近在日麻上也达到了天凤十段，不得不让人惊叹：麻将运动似乎也被AI攻克了。

——黄林，国标及日本麻将职业选手。最好成绩：2018 中日麻将对抗赛团队冠军，2017北京麻将联赛冠军，2016世界麻将运动会队式赛亚军。

腾讯AI Lab「绝艺」LuckyJ登顶国际麻将平台

腾讯AI Lab「绝艺」LuckyJ登顶国际麻将平台

7月11日，腾讯AILab宣布棋牌类AI‘绝艺’LuckyJ在国际知名麻将平台‘天

女足世界杯2023完整赛程时间表_具体安排

女足世界杯2023完整赛程时间表是什么?女足世界杯即将开战，32支队伍，6

光大同创7月12日快速上涨

以下是光大同创在北京时间7月12日11:15分盘口异动快照：7月12日，光大

伊宁县人民法院挂牌成立驻企法官工作站

为深入开展“法治化营商环境提升年”活动，进一步优化法治化营商环境，

寺庙义工体验分享之除草记

当人摒除了内心的虚浮嘈杂之后，自然可以安安然然地活在每个当下，

2023年《创造与魔法》7月12日礼包兑换码领取

《创造与魔法》2023年7月12日兑换码是多少，这是每天创造的玩家最关心

洛阳市清廉家风建设主题活动举办

近日，市“弘扬优良好家风，做廉洁治家楷模”清廉家风建设主题活动在洛

建工修复：7月11日获融资买入13.44万元，占当日流入资金比例2.36%

同花顺数据中心显示，建工修复7月11日获融资买入13 44万元，占当日买入

2023鲁台青年文化交流节在济南启动 打造沉浸式“齐鲁文化之旅”

中新网济南7月11日电(孙婷婷)“相约齐鲁·情系中华”2023鲁台青年文化

欧普照明（603515）：7月11日北向资金增持5500股

7月11日北向资金增持5500 0股欧普照明。近5个交易日中，获北向资金减持

Model Portfolio将成买方投顾“标配”？贝莱德：2028年规模将达10万亿美元

去年贝莱德提供的ModelPortfolio跟踪规模已超过500亿美元，市占率位居

《逆水寒手游》知天命技能怎么获得 玄学技能知天命获取攻略

前往汴京(1329,909),与球形仪对话,摸一下球体后,进入星罗盘挑战,完

中国女足两场热身赛 全封闭防泄密

中国女足两场热身赛全封闭防泄密,王霜,巴西队,中国女足,哥伦比亚队,女

【津云镜头】入伏赏荷 共赴一场仲夏之约

津云新闻讯：入伏时节，本市许多公园里的荷花竞相绽放，人们闻香而来，

网传男孩在列车上玩耍刀具，武汉火车站通报：系未开刃刀具模型

针对网传7月10日“G526次列车车厢男孩掏出刀具玩耍”的视频，经核实，

谷医堂：助力中医药振兴 中医药企业未来该如何破局？

中医药作为传承几千年的文化瑰宝，其现代化发展也尤为关键，其中深受老

微软将进行新一轮裁员 微软再次启动新一轮裁员 基本情况讲解

1、微软将进行新一轮裁员2、微软再次启动新一轮裁员3、以上就是关于【

墙角反水怎么解决 墙角反水

1、天津简爱风尚“如果水是从2楼下来的·1楼的损失由2楼负责；2楼的损

现场 | 由20多位知名社科专家组成豪华阵容，这个夏令营近日开营

青少年是整个社会力量中最积极、最有生气的力量。国家和民族的崛起，离

小米10s升级到14后音质

1 小米10s升级开发版后，音质是不会回来的。2 因为小米手机的音质是根

小米汽车真要落地了？还有新自研芯片和车机系统架构

7月11日，CNMO注意到，此前多次爆料小米新手机消息的数码博主，放出了

海马汽车(000572.SZ)：控股子公司海马财务预计上半年净利润658万元 同比下降10.48%

智通财经APP讯，海马汽车(000572 SZ)披露控股子公司海马财务有限公司(

来冰城畅享舒爽夏日

波塞冬旅游度假区。图片由景区提供本报讯（记者蔡韬）小暑后，全国各地

上线小程序、直播带货，苹果开始在中国“放下身段”？

微信小程序推出6年后，苹果官方商店“终于”来了。IDC数据显示，2022年

为何不建议储户存3年定期？银行内部员工道出实情，你存了吗？

众所周知，我国居民一直都有存钱的好习惯。俗话说“手握存款，遇事不慌

利元亨（688499）新增【PET复合铜箔】概念

根据市场公开信息整理，7月11日利元亨（688499）新增【PET复合铜箔】概念。

八达岭路有一段黑灯瞎火：欣赏夜长城，摸黑前行太危险！

作为暑期热门景点，八达岭长城每天都会吸引不少游客，然而每当夜幕降临

葡法庭将庭审“足球解密案”的涉案黑客，C罗可能作为证人出庭

直播吧7月11日讯《镜报》报道，葡萄牙当局将以377项罪名指控“足球解密

狗的背后探出脑袋 千万元寻狗事件背后疑有推手 基本情况讲解

1、狗的背后探出脑袋2、千万元寻狗事件背后疑有推手3、以上就是关于【

下述地区请注意！预计午后到今晚，短时暴雨＋大风天气要来

商洛市气象台2023年07月11日10时01分发布24小时灾害性天气预报：预计午

新乡市区出现巨响！应急部门：目前未接到生产安全事故报告

河南广电·大象新闻记者卢家民通讯员常延东7月11日上午9:30左右，新乡

《王者》主播赚钱难！知名解说：广告商单几乎没有

近日，十余位百万粉丝主播参与的王者荣耀盲盒骗局事件引发广泛关注。

徐工：星推官、爱的贴贴安心官、安全应急先锋官......你中意哪个官？

徐工起重吊装安全官话题视频挑战赛自发布之日起目前话题作品发布数已超

报告：中国智能手机销量于618促销季年同比下降8%

根据Counterpoint的618促销季主题报告，中国智能手机销量于2023年618促

泰晤士报：国米准备提高对卢卡库报价，切尔西想要4000万镑

据英国《泰晤士报》报道，国米准备提高对卢卡库的报价，比利时国脚希望

果洛：让“地球之肾”常葆生机与活力

VlM中国藏族网通门堂乡“女儿湾”景观。VlM中国藏族网通VlM中国藏族网

7月11日内蒙地区萤石市场行情暂稳

7月11日内蒙地区萤石市场行情价格暂稳，目前97%萤石粉湿粉出厂含税价格

中信证券：海外高端半导体设备限制层层加码，国产替代进程持续，关注两条投资主线

海外高端半导体限制层层加码，产业链国产替代持续加速。我们通过2023年

温网32连胜！德约3-1胡尔卡奇 阿卡进八强西西帕斯爆冷

北京时间7月11日凌晨，2023赛季网球大满贯温布尔登公开赛继续进行，在

【TNT】猎血·毕业怪谈（一）

2023鲁台青年文化交流节在济南启动打造沉浸式“齐鲁文化之旅”

《逆水寒手游》知天命技能怎么获得玄学技能知天命获取攻略

中国女足两场热身赛全封闭防泄密

【津云镜头】入伏赏荷共赴一场仲夏之约

谷医堂：助力中医药振兴中医药企业未来该如何破局？

微软将进行新一轮裁员微软再次启动新一轮裁员基本情况讲解

墙角反水怎么解决墙角反水

海马汽车(000572.SZ)：控股子公司海马财务预计上半年净利润658万元同比下降10.48%

狗的背后探出脑袋千万元寻狗事件背后疑有推手基本情况讲解

温网32连胜！德约3-1胡尔卡奇阿卡进八强西西帕斯爆冷

红红的萨日朗歌曲红红的萨日朗

中国生态旅游行业发展现状分析中国生态旅游行业投资战略规划研究

王霜抵澳与中国女足会合为防感冒球队训练喝姜汤御寒

韩国多名专家发声：国际原子能机构评估报告缺乏科学性反对核污水排海

赛艇世界杯卢塞恩站中国队收获一枚铜牌

顺庆雨污分流改造工地工人战高温斗酷暑推进度

中银保诚资管：对美国股市看法相对审慎建议分散投资以应对宏观不确定性

“拼车”上天空中国商业航天扩围

黑龙江教育考试网黑龙江教育考试官方网站

やなぎなぎきみの横顔伴奏やなぎなぎこころコロコロ伴奏和声やなぎなぎこころ