BOB电子竞技:人机扑克是什么:Libratus人机扑克介绍

发布时间:2024-05-19 02:54:02 来源:bob体官网 作者:bob网站下载

  Libratus 是一个玩无限德州扑克的人工智能程序。Libratus的策略并非基于专业玩家的经验,所以它的玩牌方式可能有明显的不同。基于在匹兹堡超级计算机中心大约 1500 万核心小时的计算,它使用算法分析德州扑克规则,解决AlphaGo也无法处理的不完美信息,从而建立自己的策略,而且它能够在比赛中,通过预测所有未来步骤的胜率来思考自己的下一步。

  扑克智能程序前身:2016年卡耐基梅隆大学(Carnegie Mellon University,以下简称CMU)一位Tuomas Sandholm教授曾领导开发了一个打扑克的程序Claudico,但是在一场面对数位高手的比赛中惨败。这也是Libratus的前身。2017年Libratus由Sandholm 教授联同另一位Noam Brown博士开发完成,Libratus的水平提升基于数个技术进步,包括一个新的平衡近似技术,以及几种新的方法来分析可能的结果。

  操作难题:不完整信息博弈早已被证明是难以攻克的计算机难题。对此,CMU 的人工智能研究者们专注于信息集,通过同时思考未知和已知变量各种可能状态的方式来进行预测,这需要强大的计算能力。

  计算技术:Bridges Super Computer超级计算机。每个牌局结束后的夜晚,匹兹堡市超级计算中心Bridges电脑执行计算,用以优化Libratus的策略。而在白天的比赛过程中,Bridges用于计算每一手的终结游戏策略,Bridges提供三种类型的计算选项,称为节点:常规、大型和超大型。Bridges不是当今世界最大、最快、最强劲的超级计算机,但它可能是面向公众开放的,最大、最快、最强劲的超级计算机,在Bridges的帮助下,原本在个人电脑上耗时数月的计算,仅仅几个小时就搞定。

  技术应用:没有用到专业的牌局进行神经网络的训练,不同于AlphaGo用了大量的棋局做训练,这个模型用的是随机生成的牌局(随机产生公共牌、底池筹码、玩家拿牌概率)和尝试性的动作带来的结果(在随机生成的输入情况下模拟玩家跟牌后的结果)作为训练数据。Libratus 还利用了博弈论,与AlphaGo不同,Libratus系统不通过分析大量可能的下一步达成目标,这个 CMU 构建的新系统通过平衡风险与收益来决定自己的下一步,在纳什均衡定义中的完美游戏状态。

  2015年,CMU曾组织了首场“大脑对抗人工智能”赛事。在当时的赛事中,代表CMU出战的是另外一款AI系统,同样是由Tuomas Sandholm教授开发的“Claudico”。有四名职业扑克玩家参加了比赛,当时扑克职业玩家与Claudico仅进行了8万手牌的比赛。然而,Claudico并未获得最终胜利。

  2016年11月初的四周里,由阿尔伯塔大学开发的DeepStack 击败了 11 位德州扑克职业选手中的 10 位,统计上,赢的优势很大,与每位对手玩了 3000 手。

  美国时间2017年1月30日,在宾夕法尼亚州匹兹堡的Rivers赌场,CMU开发的 Libratus AI系统击败人类顶级职业扑克玩家。据官网介绍,此次比赛共持续 20 天,由四名人类职业玩家 Jason Les、Dong Kim、Daniel McAulay 和 Jimmy Chou 对战人工智能程序 Libratus,在为期 20 天的赛程里面对玩 12 万手,最终AI赢得了176万美元 。

  Libratus在德州扑克人机大战中获得最终的胜利,是AI领域的巨大成就。玩德州扑克需要推理能力和心理战术,而这对于机器来说很难模仿。在围棋界纵横无敌的DeepMind AlphaGo本质上处理的还是完美信息博弈,无法处理德州扑克的不完美信息问题,更遑论使出诈唬(Bluffing)。Libratus在面临不完全或误导信息时,有进行推论的能力。现实世界中,不完美信息才是常态,各种看不见的隐藏信息产生了大量的不确定性,而德州扑克代表的就是这种类型的博弈。

  未来Libratus这样的AI,能够适用于商业谈判、网络安全、医疗方案制定等领域。AI发展的终极目标,是通用AI(AGI)。通用AI可以解决任何一个问题,而不是像Libratus或者AlphaGo这样只能专注于扑克或者围棋。想要实现AGI就得让人工智能学会解决不确定性问题,这也是此次人机大战的重大意义之一。

上一篇:王者荣耀困难人机形式有什么差异 困难人机形式的效果 下一篇:2023年智能平板市场呈现全面回暖趋势苹果稳居第一华为维持第二