收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于虚拟遗憾最小化算法的德州扑克机器博弈研究

滕雯娟  
【摘要】:德州扑克是风靡全球的扑克游戏,是非完备信息机器博弈的典型代表。游戏中的随机发牌导致了信息的不确定性,博弈者无法得到对手的手牌信息致使信息具有不完备性,四轮的押注决策使游戏具有重复性等。德州扑克的非确定性非完备性等特点决定了其博弈树具有指数级的游戏状态,如简单的两人限注德州扑克玩法,游戏的整个博弈树包括3.19×1017个游戏状态。对于德州扑克这类博弈状态呈指数级增长的游戏,虚拟遗憾最小化算法(Counterfactual Regret Minimization,CFR)是目前最先进的能够生成高效策略的技术之一。CFR算法通过多次迭代计算博弈树中每个信息集的动作遗憾值和平均策略值,预测下一时刻的决策动作,使其是当前最小遗憾动作。如何存储大量迭代计算产生的遗憾值、平均策略值和计算效率是CFR算法面临的两大挑战。本课题针对以上问题展开研究,对CFR算法进行了改进,实现了具有较高智能水平的德州扑克机器博弈系统。本课题实现的德州扑克智能体使用基于9-Bucketing策略的底牌抽取技术对德州扑克游戏进行抽象,降低了德州扑克状态空间复杂度。基于蒙特卡罗CFR算法的抽样思想和Pure CFR算法的整数运算思想,本课题提出了两种改进的CFR算法,根据离线训练和在线博弈时处理对手策略的不同方式,课题将改进的算法称为离线学习对手策略的CFR算法和在线自适应对手策略的CFR算法。这两种改进算法与原始的CFR算法相比,提高了计算效率和博弈的胜率,降低了存储要求。本课题根据改进的CFR算法产生的最优化策略选取未来的决策行为时,结合使用欺诈策略,避免了被对手建模。2014年,本课题使用CFR算法实现的3-Kuhn扑克机器博弈智能体在国际人工智能协会(AAAI)举办的世界年度计算机扑克机器博弈大赛(ACPC)的3-Kuhn扑克项目中获得了铜奖,随后根据本课题改进的两种CFR算法实现的德州扑克机器博弈智能体在与往年ACPC大赛决赛阶段的部分参赛智能体的机器博弈对比实验中也取得了胜利。在日常生活中,经常需要在信息不完善或不确定的情况下做决策,这和德州扑克等非完备信息机器博弈游戏的决策过程相似。CFR算法从使遗憾最小化的角度调整策略,这可以用来解决很多现实问题,比如拍卖场上与谈判桌上的最优策略、股票博弈系统等等。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 徐心和;邓志立;王骄;徐长明;刘纪红;马宗民;;机器博弈研究面临的各种挑战[J];智能系统学报;2008年04期
2 张雪峰;连莲;徐心和;;基于有限自动机的“点点连格”机器博弈系统的建模与分析[J];沈阳建筑大学学报(自然科学版);2009年04期
3 徐长明;马宗民;徐心和;李新星;;面向机器博弈的即时差分学习研究[J];计算机科学;2010年08期
4 张小川;唐艳;梁宁宁;;采用时间差分算法的九路围棋机器博弈系统[J];智能系统学报;2012年03期
5 廖景亮;陈冬强;;机器博弈中搜索算法的研究[J];福建电脑;2012年10期
6 张振;庞海;;机器博弈及其搜索算法的研究[J];软件导刊;2008年07期
7 张振;顾治华;;机器博弈及其搜索算法的研究[J];电脑知识与技术;2008年24期
8 谷飙;;计算主义纲领与机器博弈的认知意蕴[J];南开学报(哲学社会科学版);2011年04期
9 徐长明;南晓斐;王骄;徐心和;;中国象棋机器博弈的时间自适应分配策略研究[J];智能系统学报;2006年02期
10 李学俊;王小龙;吴蕾;;机器博弈教学实验平台[J];计算机教育;2014年12期
11 和力;吴丽贤;;斜方棋机器博弈程序的设计与实现[J];现代计算机(专业版);2012年17期
12 ;中国人工智能学会机器博弈专业委员会[J];智能系统学报;2013年01期
13 王赠凯;吕维先;;机器博弈搜索技术分析[J];软件导刊;2007年03期
14 徐阳东;刘弘;;遗传算法在机器博弈中的创新应用[J];电脑知识与技术;2008年07期
15 高强;郭琛;;哈希技术在中国象棋机器博弈系统中的应用研究[J];科学技术与工程;2008年17期
16 郭琴琴;李淑琴;包华;;亚马逊棋机器博弈系统中评估函数的研究[J];计算机工程与应用;2012年34期
17 王书宇;李龙澍;汪群山;;改进的协同进化遗传算法在机器博弈中的应用[J];计算机技术与发展;2008年12期
18 廖家平,舒军,王粟;基于 PDC-PROLOG 自学习机器博弈[J];湖北工学院学报;1997年04期
19 张明亮;吴俊;李凡长;;五子棋机器博弈系统评估函数的设计[J];计算机应用;2012年07期
20 刘纪红;刘谋鑫;杨北京;;基于牛角棋的博弈电路系统设计[J];现代电子技术;2012年20期
中国重要会议论文全文数据库 前4条
1 朱峰;张雪峰;徐心和;;关于机器博弈中的逐步展开型对策的一点讨论[A];2007中国控制与决策学术年会论文集[C];2007年
2 徐心和;王浩;孔凡禹;;事件对策理论及在棋类游戏中的应用[A];2007年中国智能自动化会议论文集[C];2007年
3 李微波;傅调平;鄢力;;基于机器博弈的海战兵棋仿真系统设计与实现[A];Proceedings of 14th Chinese Conference on System Simulation Technology & Application(CCSSTA’2012)[C];2012年
4 王珏;程然;王骄;;人工神经元网络结合TD(λ)算法在中国象棋机器博弈中的应用[A];2009中国控制与决策会议论文集(2)[C];2009年
中国博士学位论文全文数据库 前2条
1 张加佳;非完备信息机器博弈中风险及对手模型的研究[D];哈尔滨工业大学;2015年
2 徐长明;基于连珠模式的六子棋机器博弈关键技术研究[D];东北大学;2010年
中国硕士学位论文全文数据库 前10条
1 李昌;基于Q学习算法的非完备信息机器博弈的研究[D];哈尔滨工业大学;2015年
2 滕雯娟;基于虚拟遗憾最小化算法的德州扑克机器博弈研究[D];哈尔滨工业大学;2015年
3 张恩海;基于多自动机复合多子类机器博弈及其估值方法研究[D];沈阳大学;2011年
4 林靖;Q-学习在非完备信息机器博弈中的应用[D];哈尔滨工业大学;2009年
5 安涌;六子棋机器博弈研究与开发[D];沈阳航空工业学院;2008年
6 唐霜霜;点格棋机器博弈系统的研究与实现[D];安徽大学;2015年
7 唐艳;围棋博弈机器学习算法的研究及应用[D];重庆理工大学;2012年
8 连莲;基于Moore自动机的机器博弈系统建模与研究[D];东北大学;2009年
9 谢国;中国象棋机器博弈数据结构设计与搜索算法研究[D];西安理工大学;2008年
10 张柳;基于极大极小搜索算法的亚马逊棋博弈系统的研究[D];东北大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978