多agent协作团队的学习方法研究
【摘要】:多agent技术作为一种分布式人工智能新技术已经迅速渗透到信息社会的各个环节中,多agent学习技术作为多agent技术与机器学习的交叉研究领域,是当前分布式人工智能研究中的一项颇受关注的前沿课题。
本论文以多agent协作团队为研究对象,对多agent协作求解过程进行了研究;利用强化学习的理论以及经验共享和马尔可夫博弈理论的思想,对多agent协同强化学习方法进行了研究:对改进团队协作性能的其他学习方法也进行了探索。
作者完成的主要工作和取得的创新性成果如下:
1.提出了一个适合于多agent协作团队的协作求解框架,并在此基础上实现了一个原型系统MBOS。在协作求解框架中,结合团队工作模型的理论和理性BDI模型的特点,给出了从发起组建团队到结果评价的整个协作求解的过程:在原型系统MBOS的工程实现中,提出了一个AGENTFRAME结构以及相应的多线程并发控制机制和会话管理方法。其中,多线程并发控制机制使得agent能够有效地完成决策和协作任务;会话管理方法包括制定协作协议、协商协议和招聘协议等三种交互协议,采用有限状态自动机细化状态转换过程,以及对于不同的状态转换过程制定相应的消息处理流程,该方法使得agent之间的会话过程能够得到有效的实现。MBOS已经通过了多项应用实例的测试和评估,结果表明AGENTFRAME结构是可行的,基于AGENTFRAME结构的agent能够持续自主地运行,并且能够有效地完成各种推理、协作等智能行为。
2.将强化学习方法引入多agent协作团队的学习过程,提出了一种共享经验元组的多agent协同强化学习方法SE-MACOL。其中,提出了一种基于偶图的多agent协作团队的角色分配算法,该算法通过应用实例验证是明显有效的;提出了一种状态值,行为值有序对的知识表示形式,其中的状态和行为是采用类似于欧氏距离的数值形式,采用该知识表示形式可以合并许多相似的状态和行为,从而使得状态行为空间得到了缩减:SE-MACOL算法依据子任务的同构性,采用相似性转换,使得每个agent的经验元组可以为其它agent所共享。作者通过一系列实验对该算法进行了验证,结果表明采用该学习算法之后,团队协作的效率得到了明显提高。
3.提出了一种基于团队马尔可夫博弈的多agent协同强化学习方法TMG-MACOL。其中,提出了一种基于长期得益矩阵的阶段博弈的评估方法,长期得益矩阵可以随着与环境的不断交互和获得环境给予的回报而逐渐收敛至稳定值;提出了一种基于虚拟行动过程的行为选择策略,它可以驱使agent采取最优的行为。作者对TMG-MACOL算法进行了一系列实验,其结果都是收敛的,表明该算法是有效的,实验还对影响稳定值大小和收敛速度的因素得出了有益的结论。
4.针对团队结构和团队运作过程的确定问题对其他学习方法进行了探索。其中,针对团队结构的确定问题,提出了一种适合于多agent协作的基于案例的学习方法,其中设计了由三元组表示的案例结构和案例的相似性计算方法,通过基于案例的学习可以提高团队形成的效率:针对团队运作过程的确定问题,提出了一种基于讨论区的共识学习方法,依
国防科学技术大学研究生院学位论文
照该算法可以计算得出每个讨论主题的各个信念的信任度并对之进行排序,从而使得信任
度最高的信念被所有agent接受为共同信念,该方法有利于统一共同信念,增强团队运作
过程的连贯性。
5.以边境空勤任务中的探测与干扰的对抗为军事应用背景,对这一实例应用了本文所
提出的多agent协同强化学习方法,有效地解决了这一动态对抗中的协同作战问一题。该应
用实例还可以推广到其他活动目标跟踪问题中,能够提高在动态环境中的协作问题求解效
率。
本文的研究,深化了多agent协作团队中的关于协作学习的方法与应用的研究,对于
提高多agent协作团队适应动态环境的能力,推动多agent学习技术的研究与发展,都具有
一定的理论和实践意义。
关键词:多agent系统多agent学习协作团队强化学习协作马尔可夫博弈
第11页