收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于强化学习的多智能体协同关键技术及应用研究

李盛祥  
【摘要】:人工智能技术的不断发展使得具备自主能力的设备和系统越来越广泛地出现在人类社会的方方面面,对多智能体系统进行研究和突破可以让机器智能群体更好地服务于人类社会的生活生产。多智能体系统具有自主性、分布性、协调性等特征,并具有自组织、学习、推理等能力。相较于单个智能体,多智能体系统的研究主要面临群体规模、不完全观测、控制信息的传播、实时性以及所处环境不确定性等方面的挑战。论文针对多智能体协作问题展开深入细致的分析,使用深度强化学习技术对多智能体的学习机制、通信机理、行为一致性、知识迁移等方面进行了全面的研究,并开发了新的无源定位多智能体强化学习环境对所提出的一系列算法进行实验验证。论文期望为实现更加智能的多智能体系统提供理论和应用支撑,其主要工作和创新点如下:1、针对单个智能体场景下强化学习样本利用率低的问题,提出一种基于轨迹的双经验重放池策略梯度算法。考虑不同经验数据对智能体的学习价值不同,将状态转移数据置于轨迹中进行评估,为不同的状态转移数据更为精确地分配采样权重,提高样本学习效率。针对智能体与环境交互时间对智能体学习时间的限制,采用异步并行样本收集机制,将智能体的行动和学习进行解耦,以缓解智能体副本与环境交互时间对整体学习时间的瓶颈效应,并使用软更新策略稳定训练过程。在Mu Jo Co环境仿真机器人控制任务中的实验结果表明,所提出算法具有较高的样本利用率和稳定的训练过程。2、针对多智能体协作中智能体之间的贡献分配问题,提出一种基于局部critic反事实分解的多智能体协作算法。假设同一环境中有多个智能体共享同一奖励函数,此时智能体之间贡献的合理分配是智能体高效协作的关键。基于价值函数分解的方法利用梯度反向传播可以隐式地解决智能体之间的贡献分配问题。论文在全局价值函数分解的基础上,设计了一种新的局部critic反事实分解方法来更准确地评估单个智能体对群体回报的贡献,以促进智能体之间协同策略的形成。3、针对部分可观测环境对多智能体协作带来的挑战,提出一种基于互信息约束的多智能体通信方法。在部分可观测的条件下,每个智能体只能观测到环境的局部信息,平稳马尔可夫决策过程的假设条件不再满足。为此,论文设计了一种基于互信息约束的通信机制,能够让智能体获得自身观测以外的环境和其他智能体的动作信息,进而提高决策的有效性,同时尽可能地减少智能体之间的通信开销。为了验证所提出的算法的有效性,开发了无源定位多智能体强化学习环境。在该环境中,多个智能体需要协作调整自身的位置以寻找最优几何构型来提高无源定位精度。实验结果表明,基于通信的多智能体能够高效协作完成多接收站无源定位任务,同时智能体之间的通信开销得到了较好的控制。4、针对中心式多智能体算法在可扩展性和稳健性方面的不足,提出基于消息弥散的完全分布式多智能体策略梯度算法。当智能体的数量具有一定规模的时候,将智能体的观测和控制信息收集后进行集中处理的中心式算法在数据收集和分发方面都面临着较大的挑战,而依赖于中心节点的方式降低了系统的稳定性。论文假设多智能体之间存在一个通信网络,智能体能够和邻居节点进行信息交换。在这一设定下,智能体将自身的观测信息以消息弥散的方式进行扩散,并整合自身观测和从邻居节点获取的信息进行决策。不论在训练阶段还是部署执行阶段,每个智能体以一种完全分布式的方式进行。这种方式可以获得扩展性和稳定性方面的收益,同时能够利用其他智能体的观测和动作信息实现智能体之间更好的协作。论文利用随机逼近理论对所提出算法进行了收敛性分析,在合理的假设以及线性函数近似条件下,证明了算法的收敛性。实验中使用人工神经网络构建价值函数和策略函数,结果表明算法依然能够收敛到有效的策略。5、针对多智能体强化学习知识迁移问题,提出一种基于自注意力机制的多智能体策略迁移算法。对于对多智能体系统而言,智能体的退出和加入很多时候是无法避免的。如果从头开始训练新加入的智能体往往需要大量与环境交互的样本,增加了时间和经济成本。为了利用其他智能体在已有任务中习得的知识来加速新智能体的学习,论文假设已存在多个智能体在若干相似任务中获得了解决某一问题的能力,这些能力存储于智能体的策略中。在对源策略中的知识进行迁移过程中,设计了一种基于状态分布的策略表征方法将源策略向量化。针对目标任务进行训练的时候,通过自注意力机制融合源策略库中的策略进行综合决策。实验表明,所提出的策略迁移算法能够提升智能体在目标任务训练中的启动性能,并且超越无迁移算法的最终收敛性能。


知网文化
【相似文献】
中国期刊全文数据库 前13条
1 刘强;姜峰;;基于深度强化学习的群体对抗策略研究[J];智能计算机与应用;2020年05期
2 孙长银;穆朝絮;;多智能体深度强化学习的若干关键科学问题[J];自动化学报;2020年07期
3 童亮,陆际联;基于强化学习的多智能体协作方法研究[J];计算机测量与控制;2005年02期
4 冯埔;吴文峻;罗杰;于鑫;田雍恺;;基于群体熵的机器人群体智能汇聚度量[J];智能科学与技术学报;2022年01期
5 秦补枝;;一种新型多智能体固定目标控制算法[J];化工自动化及仪表;2017年03期
6 冯大可,王云莉,段广洪;实现多智能体系统的关键技术与应用[J];计算机集成制造系统-CIMS;2001年07期
7 朱建伟,陈健;多智能体系统技术概论[J];机电设备;2004年03期
8 陈雪江,杨东勇,范荣真;多智能体协作的两层强化学习实现方法[J];计算机工程;2005年03期
9 刘洪;未来的经济组织形态:多智能体组织[J];自然杂志;2004年04期
10 王建彬;李震;庞军;;基于多智能体的虚拟企业框架的构建与实现[J];安徽工程科技学院学报(自然科学版);2010年01期
11 陈雪江,杨东勇;基于强化学习的多智能体协作实现[J];浙江工业大学学报;2004年05期
12 陈桂琴;梁伟;;多智能体的机器人逆运动学算法研究[J];电脑编程技巧与维护;2009年S1期
13 徐玉华;谢承蓉;李军;;一类随机金融智能体模型的稳定性分析[J];郧阳师范高等专科学校学报;2014年06期
中国重要会议论文全文数据库 前20条
1 高晶英;徐旭;;具有动态网络的多智能体动态牵制蜂拥控制算法[A];第十届动力学与控制学术会议摘要集[C];2016年
2 罗小元;刘丹;;基于势函数的多智能体群集与避障[A];第二十九届中国控制会议论文集[C];2010年
3 王壮;李辉;李晓辉;沈凤;;基于深度强化学习的作战智能体研究[A];第六届中国指挥控制大会论文集(上册)[C];2018年
4 李思明;叶华文;;基于多虚拟领导者的多智能体群集编队[A];第26届中国控制与决策会议论文集[C];2014年
5 景浩;;《类脑智能体伦理道德地位的前瞻性研究》[A];第十八届中国诚信企业家大会论文集[C];2022年
6 刘伟;武钰;;人-智能体协作系统的信任校准[A];2021年无人系统高峰论坛(USS 2021)论文集[C];2021年
7 朱时敏;;人工智能体行为结果的权利归属与责任承担[A];长安金融法学研究(第11卷)[C];2020年
8 陆启韶;;智能体系统的动力学与控制问题[A];第一届全国神经动力学学术会议程序手册 & 论文摘要集[C];2012年
9 陆启韶;;智能体系统的动力学与控制问题[A];第一届全国神经动力学学术会议程序手册 & 论文摘要集[C];2012年
10 仵博;宁志宇;吴敏;;一种基于行为的双层动态智能体结构[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
11 孙铁利;杨永明;赵晶晶;;营救智能体的研究与开发[A];2005年全国理论计算机科学学术年会论文集[C];2005年
12 李锋;冯珊;魏莹;周凯波;;基于移动智能体技术的漏洞扫描系统模型[A];西部开发与系统工程——中国系统工程学会第12届年会论文集[C];2002年
13 刘杰;王月海;王鸿雁;;基于反思——模仿的多智能体协作策略[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
14 任锐;王晓丽;周浔;;基于势函数的多智能体编队控制[A];中国仪器仪表学会第十二届青年学术会议论文集[C];2010年
15 王建平;田世佑;叶伟;;智能体建模方法研究[A];第13届中国系统仿真技术及其应用学术年会论文集[C];2011年
16 杨文;汪小帆;;异质影响网络中的一致性问题[A];第三届全国复杂动态网络学术论坛论文集[C];2006年
17 曹江丽;;运行在非结构化环境下自主智能体的智能学习与控制[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(下册)[C];2006年
18 沈杰;梁志伟;刘娟;朱松豪;;RCRSS中的多警察智能体协作[A];第25届中国控制与决策会议论文集[C];2013年
19 陈宁;谈英姿;许映秋;;多种评价指标下RoboCupRescue救援智能体算法[A];2009年中国智能自动化会议论文集(第五分册)[东南大学学报(增刊)][C];2009年
20 屈志坚;刘明光;刘靖;王健;杨罡;王林;;基于BDI智能体的配电网监控信息批处理方法[A];2012年江西省电机工程学会年会论文集[C];2012年
中国博士学位论文全文数据库 前20条
1 李盛祥;基于强化学习的多智能体协同关键技术及应用研究[D];战略支援部队信息工程大学;2021年
2 王露;监督信号引导的强化学习及其应用[D];华东师范大学;2021年
3 吴锋;基于决策理论的多智能体系统规划问题研究[D];中国科学技术大学;2011年
4 曾凡玉;基于深度强化学习的智能体导航研究[D];电子科技大学;2021年
5 苏厚胜;多智能体蜂拥控制问题研究[D];上海交通大学;2008年
6 黄利伟;智能协同算法研究及应用[D];电子科技大学;2019年
7 李哲;面向工业应用的智能体控制系统研究[D];西北工业大学;2017年
8 宿云;基于本体的智能体情感识别与情感诱发研究[D];兰州大学;2019年
9 张文旭;基于一致性与事件驱动的强化学习研究[D];西南交通大学;2018年
10 吴元清;多智能体系统的鲁棒同步控制[D];浙江大学;2016年
11 吴刚;面向网络计算的移动智能体研究与实现[D];中国人民解放军国防科学技术大学;2000年
12 刘兴华;证券市场动力机制及智能体建模分析[D];东华大学;2005年
13 宁红云;协作智能体环境下虚拟企业自由联盟构建技术研究[D];天津大学;2009年
14 张灵敏;智能体系统的稳定性分析及在多智能体一致性控制中的应用研究[D];燕山大学;2020年
15 徐啟蕾;未知环境下移动智能体自主导航研究[D];中国海洋大学;2013年
16 吴正平;复杂网络建模与一致性及在多移动智能体中的应用[D];华中科技大学;2007年
17 李皎洁;具有部分感知能力的多智能体协同避障控制[D];上海交通大学;2015年
18 彭军;多智能体系统协作模型及其在足球机器人仿真系统中的应用[D];中南大学;2005年
19 董娜;面向核环境管道维修的多智能体遥控焊接系统研究[D];哈尔滨工业大学;2010年
20 胡志刚;基于协同的并行设计环境理论与方法研究[D];中南大学;2002年
中国硕士学位论文全文数据库 前20条
1 刘强;基于深度强化学习的群体对抗策略研究[D];哈尔滨工业大学;2020年
2 王艺深;多智能体深度强化学习的经验回放方法研究[D];苏州大学;2020年
3 陈烨;大规模微型智能体在线任务分配建模及决策算法研究[D];西安电子科技大学;2020年
4 陈雪江;基于强化学习的多机器人协作机制研究[D];浙江工业大学;2004年
5 闫博为;基于强化学习的多智能体逃逸算法研究[D];哈尔滨工业大学;2021年
6 朱进;基于深度强化学习的单智能体自动驾驶控制研究[D];四川大学;2021年
7 杨传宇;基于人工智能的游戏智能体行为决策[D];浙江工业大学;2020年
8 姜元爽;基于强化学习的多智能体协调控制技术[D];中国科学院大学(中国科学院深圳先进技术研究院);2021年
9 耿建鲁;基于黑板系统的多智能体系实现方法的研究[D];哈尔滨工程大学;2003年
10 唐骥宇;多智能体系统一致性问题研究[D];长安大学;2014年
11 张宇杰;面向多智能体强化学习的分层状态抽取方法[D];吉林大学;2021年
12 张雷雷;社会困境下形成个体分工的多智能体深度强化学习模型[D];浙江工业大学;2020年
13 白明明;多智能体系统建模、仿真及工程应用研究[D];西安电子科技大学;2012年
14 张兆龙;面向智能体协作的强化学习方法研究[D];广东工业大学;2021年
15 郭婷;基于强化学习的多智能体围捕策略研究[D];沈阳理工大学;2021年
16 黄旭忠;基于深度强化学习的多智能体协作方法研究[D];哈尔滨工业大学;2021年
17 马原野;基于强化学习的智能体自主导航技术研究[D];大连理工大学;2020年
18 王海;多智能体分层牵制蜂拥研究[D];南京信息工程大学;2015年
19 高东万;基于协同强化学习的群体决策方法研究[D];大连理工大学;2021年
20 黄浩晖;基于性能势的智能体学习与规划方法研究[D];广东工业大学;2014年
中国重要报纸全文数据库 前20条
1 记者 孙鹏飞;不断深化合作发展 努力打造鹰城智能体[N];平顶山日报;2020年
2 深圳商报记者 陈姝 实习生 刘子霖;云天励飞首席科学家王孝宇 未来的深圳就是一个智能体[N];深圳商报;2021年
3 ;构建自进化城市智能体助力大湾区打造国际科创中心[N];21世纪经济报道;2021年
4 记者 张梦然;“自主智能体”能与人类辩论[N];科技日报;2021年
5 记者 孟宪峰;新型城市智能体高端会议在廊坊举行[N];河北日报;2021年
6 记者 孟宪峰;廊坊将打造新型城市智能体[N];河北日报;2021年
7 记者 陈姝;政企联手搭建“鹏城智能体”[N];深圳商报;2020年
8 记者 周雨萌;城市智能体:智慧城市“下一跳”[N];深圳特区报;2020年
9 本报记者 高超;“超级智能体”正走来[N];通信产业报;2017年
10 记者 栾吟之;“城市智能体”在沪发布[N];解放日报;2020年
11 本报记者 邬春阳 实习生 陈思彤;史耀宏:共建“平安智能体” 更好服务民生[N];人民公安报;2020年
12 记者 郑佳洵 郑白;廊坊启动新型城市智能体建设[N];河北经济日报;2021年
13 ;刘丹:城市智能体推动新城建智慧化演进[N];中国建设报;2020年
14 记者 谈燕;让超大城市有机生命体成为“智能体”[N];解放日报;2021年
15 记者 肖虹;深化合作 共建长春城市智能体 数字强市 加快融入新发展格局[N];长春日报;2020年
16 本报记者 张心怡;云天励飞:从“AI打拐”到城市智能体[N];中国电子报;2021年
17 本报记者 华凌;AI能忆起昨天的你了 但触景生情还有点难[N];科技日报;2019年
18 记者 匡丽娜;打造城市智能体 推进城市治理能力升级[N];重庆日报;2020年
19 记者 金叶子;AI赋能城市数字化转型 打造超大城市“智能体”[N];第一财经日报;2021年
20 记者兴科、通讯员杨树兵、杨娜;阿拉山口 公路旅检启用智能体测系统[N];新疆日报(汉);2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978