增强学习在共面双机空战格斗中的应用
【摘要】:
微分对策作为解决追逃动态对策问题主要工具已经经历了近50年的发展,就其本身而言已经发展的相当成熟,但距实际应用还有一段距离。这主要是由于微分对策理论来源于最优控制理论,因此它需要精确的数学模型,以及在求解时会遇到非线性两点边值问题和奇异面问题。
近年来,随着人工智能的兴起,国内外许多学者致力于将智能控制理论引入微分对策理论的研究中。而要达到智能化制导就不可避免地涉及知识的自动提取和利用问题。作为机器学习的一种方法,增强学习恰可使知识的获取过程自动化,并扩展所能得到的知识资源范围。
本文研究了共面双机空战格斗的动态对策问题,采用增强学习与微分对策相结合的方法,避免了传统的控制理论根据被控对象的精确数学模型和性能指标来求解最优解析解的方法带来的困难。并依据人的模糊思维建立空战对策准则,实现状态空间的离散化以减小动作空间范围,提高网络学习效率。
本文针对传统增强学习中出现的“维数灾难”问题以及学习问题中的“Structure Credit-Assignment”问题采用BP神经网络近似Q-学习的评价函数的解决方法。
在仿真试验中考虑诸多实际因素,并采用了实际空气动力学参数,仿真结果验证本文所采用的方法的有效性,表明将增强学习与微分对策理论相结合,并应用于空战格斗问题中是—种有前途的发展方向。
本文首先分析双机格斗的重要性及其研究方法的发展,并给出设计方案的依据及总体框架。在第二章介绍了增强学习的特点、发展历史和各种算法。在第三章设计了基于Q-学习智能空战制导控制,并给出空战对策准则。在第四章对水平面双机空战格斗常、变速数学模型进行了仿真试验,对仿真结果作了分析。
【关键词】:智能控制 微分对策 增强学习 神经网络 空战格斗 系统仿真 【学位授予单位】:沈阳工业大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:E84
【DOI】:CNKI:CDMD:2.2004.030034
【目录】:
- 摘要5-6
- Abstract6-11
- 1 引言11-19
- 1.1 双机格斗的研究在空战分析中的重要性11-12
- 1.2 双机格斗理论发展状况12-16
- 1.2.1 矩阵对策方法12-13
- 1.2.2 自适应机动逻辑方法(AML)13
- 1.2.3 微分对策法13-15
- 1.2.4 人工智能方法15-16
- 1.3 设计方案选择依据及主要内容16-19
- 2 增强学习19-30
- 2.1 增强学习的概念、特点19-21
- 2.2 增强学习的发展历史21-22
- 2.3 增强学习的各种算法22-27
- 2.3.1 非联想算法(Non-associative)增强学习22-23
- 2.3.2 联想(Associative)增强学习23-24
- 2.3.3 延时增强学习算法24-27
- 2.3.4 近年来完善的增强学习算法27
- 2.4 增强学习的应用27-30
- 2.4.1 在游戏比赛中的应用27-28
- 2.4.2 在控制系统中应用28
- 2.4.3 在机器人中的应用28
- 2.4.4 在调度管理中应用28-29
- 2.4.5 在导弹拦截问题中应用29-30
- 3 空战格斗的智能控制的建模及具体实现30-43
- 3.1 双机空战格斗问题的描述30-33
- 3.2 基于Q-学习的微分对策求解33-40
- 3.2.1 主要定理33-35
- 3.2.2 Q-学习算法及其收敛性定理35-36
- 3.2.3 基于微分对策理论的Q-学习算法36-37
- 3.2.4 回报函数(Reward Function)定义37-38
- 3.2.5 评价函数(Value Function)的神经网络近似38-40
- 3.3 空战对策准则的建立40-41
- 3.4 基于Q-学习双机空战格斗智能算法41-43
- 4 基于Q-学习的双机空战格斗仿真试验43-62
- 4.1 基于Q-学习的水平面常速空战仿真试验43-55
- 4.1.1 水平面二维常速双机空战建模43-44
- 4.1.2 空战对策准则实现44-47
- 4.1.3 基于神经网络的评价函数的实现47-48
- 4.1.4 仿真试验及分析48-52
- 4.1.5 仿真参数分析52-55
- 4.2 基于Q-学习水平面变速空战仿真试验55-62
- 4.2.1 水平面二维变速空战仿真条件56-57
- 4.2.2 仿真试验及分析57-62
- 结论62-64
- 参考文献64-69
- 在学研究成果69-70
- 致谢70
全文下载:
CAJ格式
不支持迅雷等加速下载工具,请取消加速工具后下载