收藏本站
《中国科学技术大学》 2019年
收藏 | 手机打开
二维码
手机客户端打开本文

面向实时策略游戏微操的智能博弈决策方法

陈鹏  
【摘要】:实时策略(Real-time Strategy,RTS)游戏微操是指操纵多个战斗单元以赢得遭遇战胜利,属于同步博弈问题,是人工智能(Artificial Intelligence,AI)领域最具挑战性的研究方向之一。现有解决方法主要分为搜索方法和多智能体深度强化学习(Deep Reinforcement Leaning,DRL)两种,分别通过在线搜索、环境交互式学习完成决策。在面对大规模战斗场景时,前者存在搜索效率下降和搜索空间有限的问题,后者存在学习困难和泛化性弱的问题,均难以保证决策性能。结合深度学习、蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)的思路在棋类问题上取得了巨大成功,为解决此问题提供机遇。本文融合学习与搜索的优势,由学习模型引导搜索过程,尽可能地搜索大概率存在最优解的动作空间。因此,先进行多智能体联合动作的端到端学习,再进行学习模型指导下的搜索决策。针对多智能体联合动作的端到端学习,通过特征设计和特征编码完成了状态表达,参考动作精炼思路完成了动作表达,提出了基于卷积神经网络的联合策略网络(Joint Policy Network,JPN)。特别地,不同于多智能体DRL将战斗单位视为个体,仅能学习局部状态至个体动作的映射,JPN将它们视为群体,可以学习全局状态至联合动作的映射。针对学习模型指导下的搜索决策,将JPN融入三种典型的搜索方法(PGS、POE和SSS+),提出了三种对应的改进方法,分别称之为为PGS w/JPN、POE w/JPN和SSS+w/JPN。三种改进方法的思路类似,即由先验概率分布指导初始解设置和迭代优化过程,输出有限时间内搜索到的局部最优解。特别地,不同于以MCTS为代表的树搜索方法,改进方法没有展开搜索树和频繁调用学习模型的时间开销,符合实时性要求。为了评估所提出方法的性能,本文构建了覆盖基准战斗场景的数据集,在SparCraft,StarCraft:BroodWar和gym-starcraft上展开了大量评估实验。实验结果验证了JPN结构设计和损失函数设计的有效性,其决策性能接近PGS方法,且模型耗时不受战斗场景的规模影响,在各方控制单位数量达到8及以上时,明显低于多智能体DRL方法;三种改进方法的决策性能均超过GAB方法和内置AI,且SSS+w/JPN的决策性能超过SAB方法,达到当前搜索方法的最高水平;JPN和改进方法更适用于大规模战斗场景,搜索方法性能的提升主要得益于良好的先验概率和所采用的结合机制。综上,该文面向RTS游戏微操问题,提出了结合深度学习与搜索的智能博弈决策方法,该方法在各项指标上均取得很好的效果,具有实际应用价值。
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP18

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 王云;;关于改进减免税决策方法的探讨[J];税务研究;1988年10期
2 施琛;;基于不确定性严格得分下双边匹配决策方法[J];智富时代;2017年04期
3 王文军;王军锋;李慧敏;;产品人机工效综合评估与决策方法研究[J];工业设计研究;2016年00期
4 李洁;王俊;李栋;;基于模糊一致矩阵决策方法的企业平衡计分卡绩效管理[J];中国商界(上半月);2009年07期
5 郭瑞鹏;;基于预案的危机决策方法研究[J];科技进步与对策;2006年02期
6 郑全全,郑波,郑锡宁,许跃进;多决策方法多交流方式的群体决策比较[J];心理学报;2005年02期
7 王启家,阎长俊,初长庚;决策方法发展趋势[J];沈阳建筑工程学院学报;1996年03期
8 盛承懋;杜加明;;投资的几种模型与决策方法[J];技术经济;1987年Z1期
9 加森;郑永年;;研究权力的方法[J];现代外国哲学社会科学文摘;1987年12期
10 文珠;小议什么是“领导”[J];管理现代化;1988年01期
中国重要会议论文全文数据库 前10条
1 刘殿国;徐兵;;可拓决策方法的探讨[A];管理科学与系统科学进展——全国青年管理科学与系统科学论文集(第4卷)[C];1997年
2 马良;;集对分析模型下的群组决策方法[A];1996中国控制与决策学术年会论文集[C];1996年
3 吕瑞华;张世英;;复杂系统多层局势决策方法研究[A];2003年中国管理科学学术会议论文集[C];2003年
4 朱新河;严志军;严立;;设备润滑管理模式及其决策方法研究[A];第五届设备管理第八届设备润滑与液压学术会议论文集——《设备管理设备润滑与液压技术》[C];2004年
5 张智光;;离散与连续混合多变量随机决策方法及其在水环境—经济系统中的应用[A];全国青年管理科学与系统科学论文集(第1卷)[C];1991年
6 王全鹏;吴斌;刘敏;;综合评价及决策方法在特殊群体选拔中的应用[A];决策科学与评价——中国系统工程学会决策科学专业委员会第八届学术年会论文集[C];2009年
7 许国志;刘豹;陈珽;顾基发;;序言[A];科学决策与系统工程——中国系统工程学会第六次年会论文集[C];1990年
8 武刚;冯玉强;;基于粗糙案例推理在线自我学习决策方法[A];第八届中国管理科学学术年会论文集[C];2006年
9 王坚强;;信息不完全确定的大群体多准则语言决策方法[A];2009中国控制与决策会议论文集(2)[C];2009年
10 夏洪胜;张素娟;;下层多人分散独立的两层多目标决策问题的交互式决策方法[A];1995中国控制与决策学术年会论文集[C];1995年
中国重要报纸全文数据库 前10条
1 潘传宝;略论领导决策方法[N];中国航空报;2002年
2 高立法;债券投资的决策方法[N];财会信报;2006年
3 刘宁;多重目标:关于现代决策方法的思考[N];学习时报;2006年
4 缪志聪;“教给学生思考和决策方法”[N];江苏教育报;2010年
5 邹建奇;科学决策是科学发展的基础[N];战士报;2006年
6 ;经营管理(39)[N];中国电力报;2000年
7 保罗·纳特 鲍娜 辛利华 罗纳;决策失败成为焦点[N];河北经济日报;2004年
8 古元;打破行政垄断加快统一全国市场[N];国际商报;2003年
9 程登峰 师跃爱;企业改组回头看[N];发展导报;2000年
10 于颖;企业家四标准[N];中国企业报;2000年
中国博士学位论文全文数据库 前10条
1 罗党;灰色决策问题的分析方法研究[D];南京航空航天大学;2005年
2 吕瑞华;复杂经济系统混沌预测方法与多层局势决策方法研究[D];天津大学;2004年
3 刘蓉;基于聚类算法的多属性复杂大群体决策方法研究[D];中南大学;2006年
4 陈希;双边匹配决策方法研究[D];东北大学;2010年
5 刘树利;模糊多属性行为决策方法及其商务推荐应用[D];东南大学;2017年
6 李永海;基于相似案例分析的决策方法与应用研究[D];东北大学;2014年
7 刘洪波;基于人—车—环境识别的自适应档位决策方法研究[D];吉林大学;2012年
8 李荣波;梯级电站优化调度与负荷调整模型及决策方法研究[D];华北电力大学(北京);2017年
9 王文娟;企业绿色逆向物流决策方法研究[D];大连理工大学;2008年
10 陈玲;桥梁养护管理中的多指标评估与决策方法研究[D];重庆大学;2009年
中国硕士学位论文全文数据库 前10条
1 张雅辉;基于不同类型评价信息的双边匹配决策方法及其应用[D];河北大学;2019年
2 黄璐;基于本体论的无人驾驶车辆场景评估与行为决策方法研究[D];中国科学技术大学;2019年
3 陈鹏;面向实时策略游戏微操的智能博弈决策方法[D];中国科学技术大学;2019年
4 杨欣;基于面板数据时空属性的灰靶决策方法及其应用研究[D];江南大学;2018年
5 赵叶叶;复杂系统科学思维观下的企业群组ANP决策方法[D];昆明理工大学;2018年
6 陶帅;一种SDN框架下的差异性QoS业务迁移决策方法[D];南京邮电大学;2018年
7 李彦蓉;消费类电子产品生命周期末期质保政策的设计与优化[D];天津大学;2018年
8 刘阳帆;基于模糊软集的决策方法研究[D];兰州理工大学;2018年
9 周怡伶;MTO企业订单接受决策方法研究[D];重庆理工大学;2018年
10 罗元墙;基于动态贝叶斯网络的空战决策方法研究[D];沈阳航空航天大学;2018年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026