收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Q学习算法的非完备信息机器博弈的研究

李昌  
【摘要】:非完备信息机器博弈的特点是博弈者在博弈过程中无法获得全部以及可信的局面信息,这使得研究起来更复杂,更具挑战性。因此,吸引了大批国内外学者关注。机器博弈系统由数据表示、规则产生器、博弈树搜索和估值函数四部分组成,估值函数是其中最核心的部分。估值函数类似人类的大脑,它有着判断当前局势的优劣,指导智能体选择策略的重要作用。估值函数的好坏,直接反映了计算机博弈智能体的水平高低。因此,对非完备信息机器博弈估值函数进行优化具有重要的意义。本课题将非完备信息机器博弈模型转换为部分可观测马尔科夫决策模型(Partially Observable Markov Decision Processes,POMDP)进行研究,POMDP是强化学习中马尔科夫决策模型(Markov Decision Processes,MDP)的扩展。但强化学习中经典的Q学习算法适用于强化学习中的MDP模型,用到非完备信息机器博弈中会出现状态混淆、无法表示Q值、回报延迟等问题。本课题从状态动作值函数和策略空间搜索两个方面进行探索和研究,提出改进的Q学习算法,用于优化非完备信息机器博弈中的估值函数。针对非完备信息机器博弈中会出现两次观测到的牌局状态信息一样,而实际的牌局状态信息却不一样的状态混淆问题,采用连续的部分观测状态序列与资格迹(Eligibility Trace)结合的方法来解决。针对非完备信息机器博弈中状态空间信息庞大,在两人限制型德州扑克状态就包括3.19×1014个信息集,存在无法通过传统的Q值表示估值函数的问题,采用Q学习与人工神经网络结合的方法来解决。针对在非完备信息机器博弈中,游戏没有结束,无法获知采取当前策略的回报,即回报延迟问题,提出采用基于上限置信区间博弈树搜索(Upper Confidence Bound Applied to Tree,UCT)算法来求取当前策略的回报值。本课题将改进的Q学习算法应用在非完备信息机器博弈的估值函数上,分别实现了德州扑克和斗地主两款计算机智能体系统。这两个计算机智能体系统不仅考虑了当前状态之前的状态信息,同时预测了当前状态之后可能会发生的情况。这两个计算机智能体的思维更接近人类,与传统的估值函数相比,可以选择更合理的策略。


知网文化
【相似文献】
中国重要会议论文全文数据库 前4条
1 朱峰;张雪峰;徐心和;;关于机器博弈中的逐步展开型对策的一点讨论[A];2007中国控制与决策学术年会论文集[C];2007年
2 徐心和;王浩;孔凡禹;;事件对策理论及在棋类游戏中的应用[A];2007年中国智能自动化会议论文集[C];2007年
3 李微波;傅调平;鄢力;;基于机器博弈的海战兵棋仿真系统设计与实现[A];Proceedings of 14th Chinese Conference on System Simulation Technology & Application(CCSSTA’2012)[C];2012年
4 王珏;程然;王骄;;人工神经元网络结合TD(λ)算法在中国象棋机器博弈中的应用[A];2009中国控制与决策会议论文集(2)[C];2009年
中国博士学位论文全文数据库 前2条
1 张加佳;非完备信息机器博弈中风险及对手模型的研究[D];哈尔滨工业大学;2015年
2 徐长明;基于连珠模式的六子棋机器博弈关键技术研究[D];东北大学;2010年
中国硕士学位论文全文数据库 前10条
1 李昌;基于Q学习算法的非完备信息机器博弈的研究[D];哈尔滨工业大学;2015年
2 滕雯娟;基于虚拟遗憾最小化算法的德州扑克机器博弈研究[D];哈尔滨工业大学;2015年
3 张恩海;基于多自动机复合多子类机器博弈及其估值方法研究[D];沈阳大学;2011年
4 林靖;Q-学习在非完备信息机器博弈中的应用[D];哈尔滨工业大学;2009年
5 安涌;六子棋机器博弈研究与开发[D];沈阳航空工业学院;2008年
6 唐霜霜;点格棋机器博弈系统的研究与实现[D];安徽大学;2015年
7 唐艳;围棋博弈机器学习算法的研究及应用[D];重庆理工大学;2012年
8 连莲;基于Moore自动机的机器博弈系统建模与研究[D];东北大学;2009年
9 谢国;中国象棋机器博弈数据结构设计与搜索算法研究[D];西安理工大学;2008年
10 张柳;基于极大极小搜索算法的亚马逊棋博弈系统的研究[D];东北大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978