基于强化学习的多智能体协同关键技术及应用研究
【摘要】:人工智能技术的不断发展使得具备自主能力的设备和系统越来越广泛地出现在人类社会的方方面面,对多智能体系统进行研究和突破可以让机器智能群体更好地服务于人类社会的生活生产。多智能体系统具有自主性、分布性、协调性等特征,并具有自组织、学习、推理等能力。相较于单个智能体,多智能体系统的研究主要面临群体规模、不完全观测、控制信息的传播、实时性以及所处环境不确定性等方面的挑战。论文针对多智能体协作问题展开深入细致的分析,使用深度强化学习技术对多智能体的学习机制、通信机理、行为一致性、知识迁移等方面进行了全面的研究,并开发了新的无源定位多智能体强化学习环境对所提出的一系列算法进行实验验证。论文期望为实现更加智能的多智能体系统提供理论和应用支撑,其主要工作和创新点如下:1、针对单个智能体场景下强化学习样本利用率低的问题,提出一种基于轨迹的双经验重放池策略梯度算法。考虑不同经验数据对智能体的学习价值不同,将状态转移数据置于轨迹中进行评估,为不同的状态转移数据更为精确地分配采样权重,提高样本学习效率。针对智能体与环境交互时间对智能体学习时间的限制,采用异步并行样本收集机制,将智能体的行动和学习进行解耦,以缓解智能体副本与环境交互时间对整体学习时间的瓶颈效应,并使用软更新策略稳定训练过程。在Mu Jo Co环境仿真机器人控制任务中的实验结果表明,所提出算法具有较高的样本利用率和稳定的训练过程。2、针对多智能体协作中智能体之间的贡献分配问题,提出一种基于局部critic反事实分解的多智能体协作算法。假设同一环境中有多个智能体共享同一奖励函数,此时智能体之间贡献的合理分配是智能体高效协作的关键。基于价值函数分解的方法利用梯度反向传播可以隐式地解决智能体之间的贡献分配问题。论文在全局价值函数分解的基础上,设计了一种新的局部critic反事实分解方法来更准确地评估单个智能体对群体回报的贡献,以促进智能体之间协同策略的形成。3、针对部分可观测环境对多智能体协作带来的挑战,提出一种基于互信息约束的多智能体通信方法。在部分可观测的条件下,每个智能体只能观测到环境的局部信息,平稳马尔可夫决策过程的假设条件不再满足。为此,论文设计了一种基于互信息约束的通信机制,能够让智能体获得自身观测以外的环境和其他智能体的动作信息,进而提高决策的有效性,同时尽可能地减少智能体之间的通信开销。为了验证所提出的算法的有效性,开发了无源定位多智能体强化学习环境。在该环境中,多个智能体需要协作调整自身的位置以寻找最优几何构型来提高无源定位精度。实验结果表明,基于通信的多智能体能够高效协作完成多接收站无源定位任务,同时智能体之间的通信开销得到了较好的控制。4、针对中心式多智能体算法在可扩展性和稳健性方面的不足,提出基于消息弥散的完全分布式多智能体策略梯度算法。当智能体的数量具有一定规模的时候,将智能体的观测和控制信息收集后进行集中处理的中心式算法在数据收集和分发方面都面临着较大的挑战,而依赖于中心节点的方式降低了系统的稳定性。论文假设多智能体之间存在一个通信网络,智能体能够和邻居节点进行信息交换。在这一设定下,智能体将自身的观测信息以消息弥散的方式进行扩散,并整合自身观测和从邻居节点获取的信息进行决策。不论在训练阶段还是部署执行阶段,每个智能体以一种完全分布式的方式进行。这种方式可以获得扩展性和稳定性方面的收益,同时能够利用其他智能体的观测和动作信息实现智能体之间更好的协作。论文利用随机逼近理论对所提出算法进行了收敛性分析,在合理的假设以及线性函数近似条件下,证明了算法的收敛性。实验中使用人工神经网络构建价值函数和策略函数,结果表明算法依然能够收敛到有效的策略。5、针对多智能体强化学习知识迁移问题,提出一种基于自注意力机制的多智能体策略迁移算法。对于对多智能体系统而言,智能体的退出和加入很多时候是无法避免的。如果从头开始训练新加入的智能体往往需要大量与环境交互的样本,增加了时间和经济成本。为了利用其他智能体在已有任务中习得的知识来加速新智能体的学习,论文假设已存在多个智能体在若干相似任务中获得了解决某一问题的能力,这些能力存储于智能体的策略中。在对源策略中的知识进行迁移过程中,设计了一种基于状态分布的策略表征方法将源策略向量化。针对目标任务进行训练的时候,通过自注意力机制融合源策略库中的策略进行综合决策。实验表明,所提出的策略迁移算法能够提升智能体在目标任务训练中的启动性能,并且超越无迁移算法的最终收敛性能。