基于深度强化学习的干扰决策技术研究
【摘要】:在现代战场上,随着雷达体制的改变,雷达工作模式的增多和雷达抗干扰能力的增强,战场环境变得更为复杂。干扰方根据侦察的雷达信号实时判断雷达工作模式的难度提升。针对雷达的任意一种工作模式,干扰方可以选择多种干扰样式对其进行干扰。传统干扰决策方法依靠经验或模板匹配选取干扰样式,不能保证选择的干扰样式是最优的。为了提高复杂电磁环境下干扰决策的性能,提出了基于监督抽样的深度强化学习干扰决策方法。本文主要研究了基于深度强化学习的干扰决策技术,建立基于深度强化学习的干扰决策模型,在识别雷达工作模式的基础上,分别研究了基于深度Q学习(Deep Q-network,DQN)的干扰决策方法及其改进方法以及基于深度双Q网络(Double Deep Q-network,DDQN)的干扰决策方法及其改进方法。仿真结果显示本文的方法具有更好的决策性能。论文的主要研究工作如下:1.分析了雷达干扰决策的过程,提出基于深度强化学习的干扰决策模型。分别分析了深度强化学习干扰决策模型里雷达常用的工作模式以及干扰方可采取的干扰样式。研究了干扰方实施干扰后获得的干扰收益并重点讨论了计算干扰收益的方法。2.分析了常用的雷达信号特征参数,根据雷达工作模式的特点,选择差异大的信号特征,并对选取的信号特征建模。探讨了几种常用的雷达工作模式识别方法及其识别雷达工作模式的过程。研究了基于反向传播(Back Propagation,BP)神经网络识别雷达工作模式的过程并构建了基于BP神经网络的雷达工作模式识别模型。最后进行仿真实验,对比不同方法的识别效果。仿真结果表明基于BP神经网络的工作模式识别方法受参数测量误差的影响较小,并且正确率高。3.分析了DQN决策算法决策的基础过程——马尔科夫决策过程、算法基本原理和模型。探讨了基于DQN的干扰决策原理,给出了基于DQN的干扰决策步骤。针对DQN算法由随机抽样导致的训练样本不均衡问题,提出了监督抽样的方法,并研究了基于监督抽样的DQN干扰决策方法。最后进行仿真实验,仿真验证了DQN及其改进方法的决策性能。4.分析了DDQN决策算法模型以及基于DDQN的干扰决策原理,给出了基于DDQN的干扰决策步骤。针对DDQN算法中由随机抽样导致的训练样本不均衡问题,采用本文提出的监督抽样方法进行改进,研究了基于监督抽样的DDQN干扰决策方法。最后进行仿真实验,仿真验证了DDQN及其改进方法决策的有效性,并对比了DQN及其改进方法与DDQN及其改进方法的决策性能。