收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度强化学习的3D游戏的非完备信息机器博弈研究

朱航宇  
【摘要】:人工智能提出至今,已经渗透到各个领域并日益发挥着其强大的作用,机器博弈被誉为其中最具挑战性的研究方向之一,也是验证人工智能理论与计算理论的试金石。机器博弈分为完备信息机器博弈与非完备信息机器博弈两大类。非完备信息机器博弈的特点是智能体在博弈过程中无法获得博弈过程的全部信息。非完备信息博弈指参与人对某些博弈信息不可知,相比于完备信息博弈,无疑增加了研究的复杂性。许多现实生活中的决策问题都可以抽象为非完备信息博弈问题,例如军事博弈、商业竞争、网络安全、金融调控等问题。因此,对非完备信息机器博弈领域内的相关问题进行研究具有重要的现实意义。解决非完备信息机器博弈问题的传统方法是将非完备信息机器博弈模型抽象为部分可观测马尔科夫决策模型,之后利用强化学习的相关算法加以处理。然而传统的强化学习在信息非完备以及高维的状态空间下无法收敛,仅通过有限的数据和反复测试无法遍历博弈过程中的所有状态。论文将深度学习与强化学习相结合,用深度学习网络替换强化学习中的状态-动作值函数,利用深度强化学习算法解决非完备信息机器博弈领域内的相关问题。传统强化学习算法需要人工提取特征,很难发现特征间的内在联系,同时训练时需要大量的领域知识,可扩展性差。深度强化学习算法直接使用原始的游戏画面作为输入,完成了端到端的训练,实现了智能体自我学习的过程。本文针对深度强化学习算法决策时无法解决长时间历史信息的问题,将深度强化学习算法与长短期记忆模型进行结合,引用了DRQN网络。同时针对传统深度强化学习算法中存在次优动作的Q值过估计问题,结合了双重Q学习算法,将原深度强化学习中Q值的估计过程进行了解耦,并将DRQN网络与双重Q学习进行结合,提出了DDQRN网络。又因改进后的DDQRN网络训练效率不高、收敛缓慢,为了加快网络的训练收敛速度,本文提出了基于优先级搜索的记忆回放结构。同时为了提高智能体的对战效率,对网络结构进行了细分,不同的神经网络负责不同的任务场景,最终对战网络由视觉神经网络、地图导航策略强化神经网络、对战策略强化神经网络所组成,在类似于现实生活的以第一人称为视角的三维对战射击博弈Vizdoom游戏中实现了高智力水平的强化学习智能体。与传统的强化学习算法相比,达到了更高的博弈水平。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郭琴琴;李淑琴;包华;;亚马逊棋机器博弈系统中评估函数的研究[J];计算机工程与应用;2012年34期
2 ;2007全国机器博弈学术研讨会征稿[J];重庆工学院学报(自然科学版);2007年02期
3 张加佳;王轩;;机器博弈风险分析及其估算方法的研究[J];高技术通讯;2013年09期
4 张振;庞海;;机器博弈及其搜索算法的研究[J];软件导刊;2008年07期
5 张振;顾治华;;机器博弈及其搜索算法的研究[J];电脑知识与技术;2008年24期
6 ;“第二届中国机器博弈锦标赛暨2007中国机器博弈学术研讨会”于2007年10月在重庆工学院隆重举行[J];重庆工学院学报(自然科学版);2007年12期
7 ;棋讯[J];棋艺(象棋);2010年12期
8 ;中国人工智能学会机器博弈专业委员会[J];智能系统学报;2013年01期
9 谷飙;;计算主义纲领与机器博弈的认知意蕴[J];南开学报(哲学社会科学版);2011年04期
10 刘学平;李有儒;;一种改进的分布式遗传算法在机器博弈中的应用研究[J];北京理工大学学报;2017年10期
11 蒋泽文;;博弈名谱(72)[J];棋艺(象棋版);2016年06期
12 廖家平,舒军,王粟;基于 PDC-PROLOG 自学习机器博弈[J];湖北工学院学报;1997年04期
13 廖景亮;陈冬强;;机器博弈中搜索算法的研究[J];福建电脑;2012年10期
14 蒋泽文;;博弈名谱(71)[J];棋艺(象棋版);2016年05期
15 北方好汉;;博弈名谱(22)[J];棋艺(象棋);2011年11期
16 马健喆;;机器学习方法及应用研究[J];电脑知识与技术;2015年19期
17 陈向勇;李春吉;李宁;;机器博弈中韩国象棋与中国象棋的比较[J];重庆工学院学报(自然科学版);2008年01期
18 张明亮;吴俊;李凡长;;五子棋机器博弈系统评估函数的设计[J];计算机应用;2012年07期
19 李学俊;王小龙;吴蕾;;机器博弈教学实验平台[J];计算机教育;2014年12期
20 徐心和;邓志立;王骄;徐长明;刘纪红;马宗民;;机器博弈研究面临的各种挑战[J];智能系统学报;2008年04期
中国重要会议论文全文数据库 前4条
1 王珏;程然;王骄;;人工神经元网络结合TD(λ)算法在中国象棋机器博弈中的应用[A];2009中国控制与决策会议论文集(2)[C];2009年
2 朱峰;张雪峰;徐心和;;关于机器博弈中的逐步展开型对策的一点讨论[A];2007中国控制与决策学术年会论文集[C];2007年
3 徐心和;王浩;孔凡禹;;事件对策理论及在棋类游戏中的应用[A];2007年中国智能自动化会议论文集[C];2007年
4 王洪岩;朱峰;张雪峰;李玉倩;安爽;徐心和;;一种基于粗神经网络的中国象棋机器博弈评估实现[A];2007中国控制与决策学术年会论文集[C];2007年
中国博士学位论文全文数据库 前4条
1 张加佳;非完备信息机器博弈中风险及对手模型的研究[D];哈尔滨工业大学;2015年
2 徐长明;基于连珠模式的六子棋机器博弈关键技术研究[D];东北大学;2010年
3 南海;单回合的回合制战棋博弈模型搜索算法研究[D];重庆大学;2016年
4 谭科;基于博弈实验的电力市场综合模拟与分析[D];华南理工大学;2014年
中国硕士学位论文全文数据库 前10条
1 胡开亮;基于状态抽象和残局解算的二人非限制性德州扑克策略的研究[D];哈尔滨工业大学;2017年
2 朱航宇;基于深度强化学习的3D游戏的非完备信息机器博弈研究[D];哈尔滨工业大学;2018年
3 王鹏程;基于深度强化学习的非完备信息机器博弈研究[D];哈尔滨工业大学;2017年
4 代佳宁;基于虚拟遗憾最小化算法的非完备信息机器博弈研究[D];哈尔滨工业大学;2017年
5 李昌;基于Q学习算法的非完备信息机器博弈的研究[D];哈尔滨工业大学;2015年
6 唐艳;围棋博弈机器学习算法的研究及应用[D];重庆理工大学;2012年
7 滕雯娟;基于虚拟遗憾最小化算法的德州扑克机器博弈研究[D];哈尔滨工业大学;2015年
8 林靖;Q-学习在非完备信息机器博弈中的应用[D];哈尔滨工业大学;2009年
9 李洪业;幻影围棋非完美信息机器博弈问题关键算法研究[D];东北大学;2014年
10 王林;基于有限自动机的机器博弈系统建模与搜索算法的研究[D];东北大学;2009年
中国重要报纸全文数据库 前3条
1 蒋佑铭;电脑围棋对弈技术的发展趋势[N];围棋报;2009年
2 本报记者 朱芙蓉;人机博弈:机器“终结”西洋跳棋[N];科技日报;2008年
3 记者 何鑫 通讯员 张燕霖;高交会“中国象棋人机大战”今开战[N];深圳商报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978