收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

多agent协作团队的学习方法研究

王长缨  
【摘要】:多agent技术作为一种分布式人工智能新技术已经迅速渗透到信息社会的各个环节中,多agent学习技术作为多agent技术与机器学习的交叉研究领域,是当前分布式人工智能研究中的一项颇受关注的前沿课题。 本论文以多agent协作团队为研究对象,对多agent协作求解过程进行了研究;利用强化学习的理论以及经验共享和马尔可夫博弈理论的思想,对多agent协同强化学习方法进行了研究:对改进团队协作性能的其他学习方法也进行了探索。 作者完成的主要工作和取得的创新性成果如下: 1.提出了一个适合于多agent协作团队的协作求解框架,并在此基础上实现了一个原型系统MBOS。在协作求解框架中,结合团队工作模型的理论和理性BDI模型的特点,给出了从发起组建团队到结果评价的整个协作求解的过程:在原型系统MBOS的工程实现中,提出了一个AGENTFRAME结构以及相应的多线程并发控制机制和会话管理方法。其中,多线程并发控制机制使得agent能够有效地完成决策和协作任务;会话管理方法包括制定协作协议、协商协议和招聘协议等三种交互协议,采用有限状态自动机细化状态转换过程,以及对于不同的状态转换过程制定相应的消息处理流程,该方法使得agent之间的会话过程能够得到有效的实现。MBOS已经通过了多项应用实例的测试和评估,结果表明AGENTFRAME结构是可行的,基于AGENTFRAME结构的agent能够持续自主地运行,并且能够有效地完成各种推理、协作等智能行为。 2.将强化学习方法引入多agent协作团队的学习过程,提出了一种共享经验元组的多agent协同强化学习方法SE-MACOL。其中,提出了一种基于偶图的多agent协作团队的角色分配算法,该算法通过应用实例验证是明显有效的;提出了一种状态值,行为值有序对的知识表示形式,其中的状态和行为是采用类似于欧氏距离的数值形式,采用该知识表示形式可以合并许多相似的状态和行为,从而使得状态行为空间得到了缩减:SE-MACOL算法依据子任务的同构性,采用相似性转换,使得每个agent的经验元组可以为其它agent所共享。作者通过一系列实验对该算法进行了验证,结果表明采用该学习算法之后,团队协作的效率得到了明显提高。 3.提出了一种基于团队马尔可夫博弈的多agent协同强化学习方法TMG-MACOL。其中,提出了一种基于长期得益矩阵的阶段博弈的评估方法,长期得益矩阵可以随着与环境的不断交互和获得环境给予的回报而逐渐收敛至稳定值;提出了一种基于虚拟行动过程的行为选择策略,它可以驱使agent采取最优的行为。作者对TMG-MACOL算法进行了一系列实验,其结果都是收敛的,表明该算法是有效的,实验还对影响稳定值大小和收敛速度的因素得出了有益的结论。 4.针对团队结构和团队运作过程的确定问题对其他学习方法进行了探索。其中,针对团队结构的确定问题,提出了一种适合于多agent协作的基于案例的学习方法,其中设计了由三元组表示的案例结构和案例的相似性计算方法,通过基于案例的学习可以提高团队形成的效率:针对团队运作过程的确定问题,提出了一种基于讨论区的共识学习方法,依 国防科学技术大学研究生院学位论文 照该算法可以计算得出每个讨论主题的各个信念的信任度并对之进行排序,从而使得信任 度最高的信念被所有agent接受为共同信念,该方法有利于统一共同信念,增强团队运作 过程的连贯性。 5.以边境空勤任务中的探测与干扰的对抗为军事应用背景,对这一实例应用了本文所 提出的多agent协同强化学习方法,有效地解决了这一动态对抗中的协同作战问一题。该应 用实例还可以推广到其他活动目标跟踪问题中,能够提高在动态环境中的协作问题求解效 率。 本文的研究,深化了多agent协作团队中的关于协作学习的方法与应用的研究,对于 提高多agent协作团队适应动态环境的能力,推动多agent学习技术的研究与发展,都具有 一定的理论和实践意义。 关键词:多agent系统多agent学习协作团队强化学习协作马尔可夫博弈 第11页


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张琛;吴泽鸿;王剑;;基于多Agent的智能决策支持系统研究[J];科技信息;2010年08期
2 詹雄涛;;多Agent系统协商模型研究[J];科技信息(科学教研);2008年24期
3 朱文婷;陈明;;温室无线传感网络多Agent信息融合体系构建[J];郑州大学学报(理学版);2008年03期
4 沈洁;罗建利;;基于多Agent系统的分布式知识管理研究[J];系统工程理论与实践;2006年01期
5 张胜文;;基于多Agent的风光互补发电场控制系统研究[J];邵阳学院学报(自然科学版);2008年04期
6 刘枚莲,黎志成;面向电子商务的应用——基于多Agen t的消费者需求代理系统[J];数学的实践与认识;2005年11期
7 王纯贤;王治森;董伯麟;高荣;;基于Agent反、正向招投标技术的Job Shop调度研究[J];组合机床与自动化加工技术;2006年05期
8 李燕;;多Agent技术在信息检索中的应用[J];广西师范大学学报(自然科学版);2007年02期
9 刘炯艳;;基于多Agent的协同物流系统协作研究[J];统计与决策;2007年19期
10 刘宏宇;白世贞;;供应链合作机制的多Agent分析[J];物流科技;2007年12期
11 张仁伟;;一个基于Multi-Agent的统一身份认证系统[J];哈尔滨师范大学自然科学学报;2008年04期
12 刘兆佳;寇净磊;;基于多Agent的数据挖掘技术研究[J];科技信息;2009年16期
13 梁祥君,杨善林,程文娟;基于模糊理论的多AGENT决策支持系统[J];中山大学学报(自然科学版);2004年01期
14 陈贞,李蓓,李炳法;基于层次分析法的多Agent合成结果可信度评价方案[J];四川大学学报(自然科学版);2005年05期
15 吴强;邓峰;;基于多Agent的虚拟企业CRM的系统设计[J];科技创业月刊;2006年07期
16 邹超;王晓峰;吴新鹏;;多Agent技术在电力系统安全与稳定中的应用[J];科技资讯;2007年28期
17 曾辉;;多Agent在适应性网上教学系统的应用[J];井冈山学院学报(自然科学版);2007年03期
18 吕艳坤;;软件维护中的应用技术研究[J];科技资讯;2008年05期
19 赵翔;黄厚宽;;供应链管理中基于蚁群算法的多Agent合作[J];广西师范大学学报(自然科学版);2008年01期
20 寇净磊;董国超;;多Agent专家系统网格研究[J];科技信息;2009年10期
中国重要会议论文全文数据库 前10条
1 蒋兆远;杜亚江;康会峰;;高质量硕士研究生培养模式创新与实践[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年
2 姜同川;何建源;;“鲁迅公园现象”研究[A];生命、知识与文明:上海市社会科学界第七届学术年会文集(2009年度)哲学·历史·文学学科卷[C];2009年
3 郭周克;李志明;李庆寿;许凯;张和平;郭锐;;着力打造“九力”团队 乘势提升管理境界[A];煤炭经济管理新论(第9辑)——第十届中国煤炭经济管理论坛暨2009年中国煤炭学会经济管理专业委员会年会论文集[C];2009年
4 宋文林;;争取郭仁泰率部反正的经过及其意义[A];雄师奇观——纪念新四军第五师建军50周年论文专辑[C];1991年
5 何荣福;;省市级会议会务管理信息系统[A];第十八届中国(天津)’2004IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2004年
6 宋健;王振海;彭铁;;团队安全在安全管理中的研究与应用[A];中国金属学会2004’冶金安全年会论文集[C];2004年
7 郑方;;如何塑造理想团队[A];实践与思考——二OO四学会文集[C];2004年
8 张捷;陈群秀;;日汉机器翻译系统中的多Agent研究[A];第一届学生计算语言学研讨会论文集[C];2002年
9 曹军海;徐宗昌;熊光楞;;多Agent仿真技术在复杂系统RMS仿真中的应用研究[A];2003年全国系统仿真学术年会论文集[C];2003年
10 徐博艺;徐南荣;;并行工程环境下基于多Agent的产品开发组织决策模式[A];全国青年管理科学与系统科学论文集第5卷[C];1999年
中国博士学位论文全文数据库 前10条
1 王长缨;多agent协作团队的学习方法研究[D];国防科学技术大学;2004年
2 李常洪;多Agent合作机制与合作结构研究[D];天津大学;2003年
3 闫琪;基于角色的多Agent系统开发方法研究[D];国防科学技术大学;2004年
4 龚报钧;基于多Agent的企业信息集成理论及应用研究[D];浙江大学;2001年
5 李章维;基于多Agent的数据广播信息平台研究及在远程教育中的应用[D];浙江大学;2004年
6 贾殿村;多Agent敏捷虚拟企业稳定性研究及改进[D];天津大学;2005年
7 范敏;基于贝叶斯网络的学习与决策方法研究及应用[D];重庆大学;2008年
8 李青;闭环供应链管理问题研究[D];大连海事大学;2009年
9 黄逸民;基于多Agent的智能管理信息系统理论与应用研究[D];浙江大学;2002年
10 王海东;水泥生产过程多AGENT控制系统的研究[D];中南大学;2004年
中国硕士学位论文全文数据库 前10条
1 戴骏;以团队为核心的绩效管理模型的设计与应用——PA公司的绩效管理体系的方案设计[D];电子科技大学;2004年
2 黄芳;从隐喻视角看在华中资与美资企业员工团队概念差异[D];对外经济贸易大学;2006年
3 郝杨杨;基于多Agent交互协作的工作流管理系统的研究与应用[D];东华大学;2009年
4 史焕杰;《案例》:MZ高速公路[D];暨南大学;2002年
5 黄斌;团队利润分享和奖金激励机制有效性之博弈研究[D];南京师范大学;2003年
6 姜丽;多Agent在动态供应链合作伙伴选择中的应用研究[D];大连海事大学;2009年
7 白庆娟;教师合作文化构建的阻力及其对策研究[D];山东师范大学;2009年
8 刘炯艳;基于多Agent的协同物流管理研究[D];重庆大学;2005年
9 滕兴乐;企业团队激励模式研究[D];中国农业大学;2004年
10 翁华明;基于Agent的装备维修保障决策研究[D];国防科学技术大学;2005年
中国重要报纸全文数据库 前10条
1 本报记者 金启宁;携程旅行网推出“海外团队游标准”[N];中国旅游报;2006年
2 记者 韩晓玲 通讯员 周前进 王潇潇;华科大“点”团队引起关注[N];湖北日报;2010年
3 郑建龙 艾倩;资本平台、经营团队是做强做大的双重保障[N];中国航空报;2010年
4 本报记者 吴晓婧;向朝勇:投资要依靠团队的智慧[N];上海证券报;2011年
5 本报记者 李翼青;支起虚拟团队的软肋[N];机电商报;2005年
6 赵悦;招商团队的品牌优势[N];医药经济报;2005年
7 ;打造一流团队 争做行业先锋 努力推进城区管理工作创新发展[N];黑龙江日报;2009年
8 记者 陈锋 通讯员 杜军;团队竞争力强势拉升高新区经济[N];郑州日报;2009年
9 杨艳;她和她的团队在科技前沿行走[N];中国国门时报;2009年
10 本报记者 周海霞;自治区旅游团队奖励办法在我州实施[N];巴音郭楞日报;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978