基于深度强化学习的路径规划算法研究
【摘要】:目前的路径规划方法在面对未知复杂的环境时不具有迅速响应复杂环境变化的能力、不能实时路径规划、收敛速度慢等缺点。近年来,随着深度学习和强化学习的不断发展,以深度强化学习来实现移动机器人路径规划任务一直是人工智能领域的研究热点。传统的路径规划算法应用到未知复杂的环境时,要寻到一条全程无碰撞的路径是很困难的。而深度强化学习可以使智能体在探索环境的同时,学习到相关经验、避障能力以及趋向目标点的能力,使机器人通过不断“试错”的方式,获得一条最优路径。因此本课题开展了基于深度强化学习的路径规划算法研究问题,论文主要研究如下:(1)由于深度Q网络算法经验回放机制的存储方式是先进先出,且后期回放训练的采样方式是平均采样,这会造成经验回放效率较低,导致移动机器人趋向目标和寻路过程缓慢;以及由于贪婪策略导致探索地图信息不完整,提出了PER-Noisy Net DQN算法模型。在存储样本的时候,赋予样本权重,按照优先级顺序送入网络进行样本训练,同时经验回放缓存区保留重要性数据序列,移除相似度较高的序列;将深度Q网络的全连接层改为噪声层,来提高智能体的探索能力。通过Open AI Gym平台验证了总奖励值比原始深度Q网络的奖励值提高了10%左右,证明移动机器人趋向目标点的准确率变高。(2)针对深度Q网络动作选择策略的方式,造成局部最优值解,导致移动机器人的路径轨迹不是最优的,提出了PER-Dueling DQN算法模型。在网络结构中引入对抗网络机制,解决智能体在选择动作时,判断该动作是否能得到正的奖励值,使总收益最大。通过Open AI Gym平台和二维栅格地图实验结果表明,PER-Dueling DQN比原始深度Q网络算法收敛效率高,比PER-Noisy Net DQN算法模型稳定,且总奖励值提高了11%~13%左右。后续选择基于PER-Dueling DQN算法做路径规划研究。(3)最后,基于ROS和Gazebo平台搭建三维无障碍环境和有障碍环境,通过Turtle Bot3移动机器人平台进行三维仿真实验,从实验结果分析总奖励值趋于稳定在4000左右,最大Q值也在探索过程中逐步上升,证明了PER-Dueling DQN算法模型稳定且智能体能学习到目标趋向能力和避障能力,能有效完成路径规划任务。将训练好的模型移植到机器人平台,进行实物场景测试,实现了路径规划任务。