收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于虚拟遗憾最小化算法的非完备信息机器博弈研究

代佳宁  
【摘要】:从上世纪40年代起,图灵、香农等计算科学的先驱在国际象棋机器博弈上的探索,到近年来,深蓝、AlphaGo引发的全民关注,机器博弈一直以来都是验证计算理论与人工智能理论的试金石。非完备信息博弈指参与人对某些博弈信息不可知,相比于完备信息博弈,无疑增加了研究的复杂性。研究非完备信息机器博弈产生的成果,可以应用到广泛的领域中,如军事博弈、商业竞争、金融调控等。德州扑克是风靡全球的扑克游戏,被认为是非常战略性的,包含非完备信息、随机事件、部分信息可观测等非完备信息博弈特性,成为人工智能研究的试验台。2015年加拿大Bowling等科学家提出改进的虚拟遗憾最小化算法(Counterfactual Regret Minimization,CFR)解决了两人限制性德州扑克博弈问题,是非完备信息机器博弈领域的里程碑。但CFR算法还存在两个问题,一为CFR算法是一种离线自训练算法,无法在实际博弈中计算。二为CFR算法仅保证在两人零和博弈中计算出近似纳什均衡策略,是否适用于多人博弈还是一个未知数。本文针对以上两个问题,开展了在线CFR算法和CFR算法应用在多人博弈中的研究。针对CFR不适用于实时场景的问题,提出一种在线CFR算法。对CFR算法的流程、计算等进行深入研究,分析原始CFR算法的计算和迭代过程,对比离线与在线的区别,用统计的方法估计对手的策略,得到CFR在线更新策略所需的虚拟遗憾值。实现的智能体在2016年世界计算机扑克博弈大赛(Annual Computer Poker Competition,ACPC)的两人非限制性德州扑克项目中获得第八名。针对CFR算法仅限于在两人零和博弈中应用的问题,提出CFR算法应用在三人Kuhn扑克中的解决方案。通过剖析CFR算法在两人零和博弈中收敛到近似纳什均衡策略的证明,给出CFR算法在3人零和博弈中收敛到近似纳什均衡策略的证明。通过分析博弈论中纳什均衡概念与极大极小定理在两人博弈与多人博弈的区别,提出CFR算法应用在三人博弈中的解决方案,即使用原始CFR算法离线计算近似纳什均衡策略后,在对弈过程中应用在线CFR算法根据对手动作实时对离线策略进行更改,以便于更好的利用对手弱点,增加己方收益。实现的智能体在ACPC平台上进行了实验,验证了算法的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;“第二届中国机器博弈锦标赛暨2007中国机器博弈学术研讨会”于2007年10月在重庆工学院隆重举行[J];重庆工学院学报(自然科学版);2007年12期
2 徐心和;邓志立;王骄;徐长明;刘纪红;马宗民;;机器博弈研究面临的各种挑战[J];智能系统学报;2008年04期
3 张雪峰;连莲;徐心和;;基于有限自动机的“点点连格”机器博弈系统的建模与分析[J];沈阳建筑大学学报(自然科学版);2009年04期
4 徐长明;马宗民;徐心和;李新星;;面向机器博弈的即时差分学习研究[J];计算机科学;2010年08期
5 张小川;唐艳;梁宁宁;;采用时间差分算法的九路围棋机器博弈系统[J];智能系统学报;2012年03期
6 廖景亮;陈冬强;;机器博弈中搜索算法的研究[J];福建电脑;2012年10期
7 张振;庞海;;机器博弈及其搜索算法的研究[J];软件导刊;2008年07期
8 张振;顾治华;;机器博弈及其搜索算法的研究[J];电脑知识与技术;2008年24期
9 谷飙;;计算主义纲领与机器博弈的认知意蕴[J];南开学报(哲学社会科学版);2011年04期
10 徐长明;南晓斐;王骄;徐心和;;中国象棋机器博弈的时间自适应分配策略研究[J];智能系统学报;2006年02期
11 李学俊;王小龙;吴蕾;;机器博弈教学实验平台[J];计算机教育;2014年12期
12 和力;吴丽贤;;斜方棋机器博弈程序的设计与实现[J];现代计算机(专业版);2012年17期
13 ;中国人工智能学会机器博弈专业委员会[J];智能系统学报;2013年01期
14 王赠凯;吕维先;;机器博弈搜索技术分析[J];软件导刊;2007年03期
15 徐阳东;刘弘;;遗传算法在机器博弈中的创新应用[J];电脑知识与技术;2008年07期
16 高强;郭琛;;哈希技术在中国象棋机器博弈系统中的应用研究[J];科学技术与工程;2008年17期
17 郭琴琴;李淑琴;包华;;亚马逊棋机器博弈系统中评估函数的研究[J];计算机工程与应用;2012年34期
18 王书宇;李龙澍;汪群山;;改进的协同进化遗传算法在机器博弈中的应用[J];计算机技术与发展;2008年12期
19 廖家平,舒军,王粟;基于 PDC-PROLOG 自学习机器博弈[J];湖北工学院学报;1997年04期
20 张明亮;吴俊;李凡长;;五子棋机器博弈系统评估函数的设计[J];计算机应用;2012年07期
中国重要会议论文全文数据库 前4条
1 朱峰;张雪峰;徐心和;;关于机器博弈中的逐步展开型对策的一点讨论[A];2007中国控制与决策学术年会论文集[C];2007年
2 徐心和;王浩;孔凡禹;;事件对策理论及在棋类游戏中的应用[A];2007年中国智能自动化会议论文集[C];2007年
3 李微波;傅调平;鄢力;;基于机器博弈的海战兵棋仿真系统设计与实现[A];Proceedings of 14th Chinese Conference on System Simulation Technology & Application(CCSSTA’2012)[C];2012年
4 王珏;程然;王骄;;人工神经元网络结合TD(λ)算法在中国象棋机器博弈中的应用[A];2009中国控制与决策会议论文集(2)[C];2009年
中国博士学位论文全文数据库 前2条
1 张加佳;非完备信息机器博弈中风险及对手模型的研究[D];哈尔滨工业大学;2015年
2 徐长明;基于连珠模式的六子棋机器博弈关键技术研究[D];东北大学;2010年
中国硕士学位论文全文数据库 前10条
1 代佳宁;基于虚拟遗憾最小化算法的非完备信息机器博弈研究[D];哈尔滨工业大学;2017年
2 王鹏程;基于深度强化学习的非完备信息机器博弈研究[D];哈尔滨工业大学;2017年
3 李昌;基于Q学习算法的非完备信息机器博弈的研究[D];哈尔滨工业大学;2015年
4 滕雯娟;基于虚拟遗憾最小化算法的德州扑克机器博弈研究[D];哈尔滨工业大学;2015年
5 张恩海;基于多自动机复合多子类机器博弈及其估值方法研究[D];沈阳大学;2011年
6 林靖;Q-学习在非完备信息机器博弈中的应用[D];哈尔滨工业大学;2009年
7 安涌;六子棋机器博弈研究与开发[D];沈阳航空工业学院;2008年
8 唐霜霜;点格棋机器博弈系统的研究与实现[D];安徽大学;2015年
9 唐艳;围棋博弈机器学习算法的研究及应用[D];重庆理工大学;2012年
10 连莲;基于Moore自动机的机器博弈系统建模与研究[D];东北大学;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978