基于强化学习的应急任务动态规划研究
【摘要】:公共安全涉及到国家重大基础设施和社会安全等领域,是国家安全的基石。然而当前我国却因公共突发事件遭受了巨大损失,严重危害了国家的社会安定和经济发展。公共安全已经成为国家的需要重视的问题之一。应急管理中最重要的任务是面对突发事件时,能够迅速找到相应有效的应对方法。但是突发事件往往具有复杂性、动态性、不确定性和时效性等特点,使得应急管理中的决策过程十分复杂。应急救援过程也成为一个复杂的动态任务规划问题,如何有效地解决这个问题,成为当前研究的一个热点问题。
本文针对突发事件的特点,构建了应急救援过程的多任务动态规划模型。本文充分考虑了应急救援过程中的资源约束和时间紧迫性问题,以及应急救援过程的不确定性,动态性和复杂性,以马尔科夫决策(MDP)为理论依据,构建了应急救援任务动态规划的MDP模型。而在对应急救援任务规划MDP模型求解方法上采用了基于Option的分层强化学习算法,该算法可以有效解决状态的不确定性以及状态空间的庞大问题。在Option的自动生成与执行的过程中,实现了应急救援多任务模型的动态规划。另外本文针对应急救援过程中的报警机制,设计了中断Option,大大提高了应急救援效果。为了证明模型和算法的有效性,本文以一个洪水救援案例为背景,分别采用基于Option的应急救援算法和基于传统Q-学习算法进行仿真,通过仿真实验验证了无论是在救援时间还是救援质量上面,基于Option的算法都明显优于基于Q-学习算法。