收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于混合抽象机制的多智能体系统动态分层强化学习算法研究

戴朝晖  
【摘要】:强化学习因具有自学习和在线学习的良好特性,已经成为机器学习领域的一个重要分支。然而,强化学习本身存在“维度灾难”问题,所需的存储空间和计算量很大。因此,将强化学习应用到多智能体系统时,随着智能体个数的增加,动作空间和状态空间呈指数级增长,会加剧“维度灾难”问题,学习效率非常低下,导致多智能体系统难以及时甚至无法完成学习任务。因此,如果能有效缓解“维度灾难”问题,提出一种适用于未知大规模复杂环境下的高效率强化学习方法,则可以为提高多智能体系统在实际应用中的自适应性提供有效的解决方案,对促进机器学习领域理论和技术的发展具有重要意义。 为提高复杂环境下多智能体策略学习的效率,论文研究将分层强化学习技术和基于模型的强化学习技术相结合的方法,针对分层条件下智能体策略学习、策略空间动态分层,以及多智能体系统动态分层与策略学习相结合这三个多智能体系统动态分层强化学习算法研究的关键问题,阐述了结合Bayesian学习和MAXQ学习方法的静态分层强化学习算法(Bayesian-MAXQ);进而研究状态抽象技术,实现基于概率模型的动态分层强化学习算法(DHRL-Model),通过分析合作式多智能体系统策略学习的特征,对DHRL-Model进行扩展,将动作抽象和状态抽象相结合,实现多智能体系统的基于探索信息自适应聚类的多智能体动态分层强化学习方法(MADHRL-ACEI)。 具体而言,论文的研究主要包括下述几个方面: (1)动态未知环境下动态分层学习的可行性分析 论文首先从强化学习的本质出发,分析引起“维度灾难”的原因。进而通过分析和比较多种分层学习方法,阐述状态抽象和动作抽象思想在缓解“维度灾难”的优势和不足,以及静态分层学习在动态未知环境下的缺陷。针对MAXQ静态分层架构的特点,运用状态抽象和动作抽象思想,分析基于模型学习方法实现MAXQ值函数分解的可行性,并提出实现MAXQ动态分层的关键问题。 (2)提出一种基于模型的静态分层强化学习算法Bayesian-MAXQ 为了充分利用基于模型法(如贝叶斯学习)学习效率高的特点和MAXQ分层框架具有良好在线学习能力的优势,论文研究融合贝叶斯学习和MAXQ值函数分解算法的方法,解决分层条件下贝叶斯学习中的数据记录和值函数迭代更新问题。主要的改进包括:增加一个维度用于表示子任务的标号,实现与MAXQ状态空间的统一;增加位于所有层次内状态-动作对之间的联系,建立状态转移的前向和逆向拓扑关系;改进Prioritized Sweeping算法中的优先级计算方程,实现分层框架下值函数的动态规划求解。最终提出一种基于模型的静态分层强化学习算法Bayesian-MAXQ,并通过典型的出租车任务验证了Bayesian-MAXQ算法的有效性。 (3)提出一种基于概率模型的动态分层强化学习算法(DHRL-Model) Bayesian-MAXQ算法只是改善了已知分层结构下强化学习的效率。为了满足在未知大规模复杂动态环境中的应用需求,论文研究运用状态抽象思想实现MAXQ分层结构的动态实现方法。通过研究基于子目标的状态聚类方法,实现子目标状态点的自动识别,并基于子目标状态集合实现类MAXQ分层结构的自动分层和学习过程中分层结构的动态更新。在动态分层基础上,运用Bayesian-MAXQ算法搜索智能体解空间动态分层条件下的递归最优策略。从而形成DHRL-Model算法,显著提高未知环境下智能体的学习效率。 (4)提出一种基于探索信息自适应聚类的多智能体动态分层强化学习算法(MADHRL-ACEI) 为了缓解合作式多智能体强化学习过程中面临的严重“维度灾难”问题,提高多智能体系统的学习效率以满足未知复杂多智能体环境下的应用需求,论文研究并提出一种基于探索信息自适应聚类的多智能体动态分层强化学习方法MADHRL-ACEI。通过研究基于状态自反周期的多智能体动作抽象算法,融合单智能体DHRL-Model算法中的状态聚类方法,提出了基于探索信息自适应聚类的多智能体动态分层算法,实现在动态未知环境下,多智能体系统类MAXQ结构的自动生成和动态优化。结合Bayesian-MAXQ算法,实现了多智能体环境下,在动态分层条件下,合作递归最优策略的自学习,并大大降低各子任务的策略搜索规模,加快任务的学习速度。通过仿真试验表明,该算法能显著提高未知环境下多智能体系统的学习效率,有效的缓解了多智能体系统实际应用的瓶颈问题。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王云;韩伟;;对称协调博弈问题的多智能体强化学习[J];计算机工程与应用;2008年36期
2 童亮,陆际联;基于强化学习的多智能体协作方法研究[J];计算机测量与控制;2005年02期
3 韩伟;;基于边界样本协调的多智能体合作学习[J];模式识别与人工智能;2008年01期
4 向中凡;;Q学习角色值法在机器人足球比赛中的应用[J];电子科技大学学报;2007年04期
5 毛俊杰;刘国栋;;基于先验知识的改进强化学习及其在MAS中应用[J];计算机工程与应用;2008年24期
6 刘春阳;谭应清;柳长安;马莹巍;;多智能体强化学习在足球机器人中的研究与应用[J];电子学报;2010年08期
7 卢道华;吴洪涛;张礼华;;基于MAS和RL的舰船设备协同控制方法[J];南京航空航天大学学报;2008年01期
8 朴松昊;孙立宁;钟秋波;黄庆成;;动态环境下的多智能体机器人协作模型[J];华中科技大学学报(自然科学版);2008年S1期
9 连传强;徐昕;吴军;李兆斌;;面向资源分配问题的Q-CF多智能体强化学习[J];智能系统学报;2011年02期
10 刘亮;李龙澍;;局部合作多智能体Q-学习研究[J];计算机工程与应用;2008年15期
11 左国玉;张红卫;韩光胜;;基于多智能体强化学习的新强化函数设计[J];控制工程;2009年02期
12 段勇;崔宝侠;徐心和;;多智能体强化学习及其在足球机器人角色分配中的应用[J];控制理论与应用;2009年04期
13 王晓芳,杨家本;制造系统中任务分配的自适应Agent模型[J];计算机集成制造系统-CIMS;2001年08期
14 程显毅;杨长瑀;;机器人足球学习机制的研究现状与发展[J];江南大学学报(自然科学版);2007年06期
15 仲宇,顾国昌,张汝波;多智能体系统中的分布式强化学习研究现状[J];控制理论与应用;2003年03期
16 刘亮;李龙澍;;分层的局部合作Q-学习[J];计算机工程与应用;2009年22期
17 张家旺;韩光胜;张伟;;Q学习算法在RoboCup带球中的应用[J];系统仿真技术;2005年02期
18 梁宏倩;;多智能体系统中强化学习模型的改进及应用[J];西安文理学院学报(自然科学版);2008年02期
19 常晓军;;基于联合强化学习的RoboCup-2D传球策略[J];计算机工程与应用;2011年23期
20 郭晓军;杨建军;李红卫;;Agent仿真中具有先验知识的混合学习算法与混合结构模型[J];海军航空工程学院学报;2007年02期
中国重要会议论文全文数据库 前10条
1 张伟;李建更;张家旺;;多智能体强化学习在机器人足球比赛中的应用[A];2005年中国智能自动化会议论文集[C];2005年
2 潘凌寒;程显毅;;RoboCup仿真比赛中机器学习问题的研究[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
3 杨洪勇;路兰;李晓;;时延多智能体系统的群集运动[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
4 张文广;郭振凯;;一类高阶多智能体系统的一致控制研究[A];中国自动化学会控制理论专业委员会C卷[C];2011年
5 姜海波;于建江;周彩根;;基于脉冲控制协议的线性离散多智能体系统的一致性[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
6 杨熙;王金枝;;多智能体系统一致性的鲁棒性分析[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
7 张亚;田玉平;;离散时间多智能体系统一致的权重条件[A];中国自动化学会控制理论专业委员会B卷[C];2011年
8 杨熙;王金枝;;Leader-Follower结构下多智能体系统一致性的鲁棒性能分析[A];第二十九届中国控制会议论文集[C];2010年
9 薛栋;姚静;余有灵;胡俊杰;;具有切换拓扑和非线性环节的关联多智能体系统一致性分析[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
10 刘华罡;方浩;毛昱天;曹虎;贾睿;;多智能体系统分布式群集运动与避障控制[A];第二十九届中国控制会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 戴朝晖;基于混合抽象机制的多智能体系统动态分层强化学习算法研究[D];中南大学;2012年
2 吴治海;网络环境下的多智能体系统一致性问题研究[D];华中科技大学;2011年
3 王强;低阶多智能体系统分析与控制协议设计[D];山东大学;2012年
4 佘莹莹;多智能体系统一致性若干问题的研究[D];华中科技大学;2010年
5 姜海波;多智能体系统的脉冲一致性及其动力学研究[D];江苏大学;2012年
6 唐朝君;多智能体系统一致性问题与包含控制问题研究[D];电子科技大学;2012年
7 潘福臣;多智能体系统的稳定性研究及其在人工股票市场上的应用[D];大连理工大学;2011年
8 金钊;加速强化学习方法研究[D];云南大学;2010年
9 彭科;带领导者的多智能体系统中的一致性问题研究[D];上海交通大学;2009年
10 徐明亮;强化学习及其应用研究[D];江南大学;2010年
中国硕士学位论文全文数据库 前10条
1 张驰;基于ROBOCUP的多智能体系统设计与实现[D];北京工业大学;2004年
2 郭华;分布式足球机器人学习与协作研究[D];西北工业大学;2006年
3 薛丽华;多智能体协作学习方法的研究[D];长沙理工大学;2008年
4 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
5 叶津凌;基于信度分配的多智能体强化学习研究[D];长沙理工大学;2007年
6 贺振东;基于改进Q-学习的导航知识获取算法研究[D];东北电力大学;2006年
7 宋梅萍;多移动机器人协作任务的分布式决策控制系统[D];哈尔滨工程大学;2003年
8 卢方国;强化学习在个性化信息Agent的应用研究[D];广东工业大学;2004年
9 刘飞;强化学习方法在多机器人博弈系统中的应用研究[D];华北电力大学(北京);2011年
10 李锋;多智能体Q学习在多AUV协调中的应用与仿真[D];哈尔滨工程大学;2008年
中国重要报纸全文数据库 前10条
1 孙佳宇;强化学习教育 增强服务意识[N];人民公安报;2009年
2 首席记者 朱丽华;强化学习 落实责任 确保取得实效[N];盘锦日报;2009年
3 王良豪 记者 刘伟 龙先华;通过创新工作取得活动效果[N];六盘水日报;2008年
4 书分;解放区审计局强化学习抓作风[N];焦作日报;2006年
5 记者 刘琰;强化学习 增强本领 扎实工作[N];周口日报;2009年
6 谭育才;强化学习 克己奉公[N];赤峰日报;2008年
7 章斌、特约记者夏吉龙;8710部队 破解难题强化学习教育效果[N];人民武警;2010年
8 通讯员 马全有;强化学习 搞好服务 解放思想[N];甘肃法制报;2007年
9 李北川;强化学习 找准问题 着力整改[N];凉山日报(汉);2007年
10 记者 刘莉 实习记者 刘慕欣;兵团党委“保先”教育活动督导组强化学习[N];兵团日报(汉);2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978