收藏本站
《哈尔滨工程大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

分布式强化学习理论及在多机器人中的应用研究

仲宇  
【摘要】:强化学习是近年发展起来的一种新的人工智能方法。由于人类对脑的真实结构了解甚少,至今无法清楚地解释智能的本质,只能依靠对人类智能系统的观察和猜测来定义人工智能系统的结构和外部特性,这种传统的基于逻辑规则的人工智能方法有诸多缺陷,所以人们转向了让人工智能系统通过自我学习来逐渐地获得智能的研究方向。强化学习就是这样一种机器学习方法,它模拟动物学习过程,通过试探的方法修正从状态到动作的映射策略,最终学会在各种环境状态下采取最好的反应行为,从而提高智能系统的自适应性和鲁棒性。 机器人是对人类个体的仿生,而多机器人系统是对人类社会的仿生。由于学习、交流和协作是人类的本质特征,所以对多机器人系统中的分布式强化学习问题的研究具有重要意义。现有的分布式强化学习方法还存在着结构信度分配困难、学习速度慢等缺陷,这些缺陷大大限制了分布式强化学习方法的应用范围。本文对分布式强化学习理论进行了系统地研究,并对其存在的部分问题提出了初步的解决办法。 系统地介绍了强化学习的基本原理、体系结构和主要算法,研究了各种强化学习算法的特点和适用范围。 研究了分布式强化学习系统的体系结构和主要算法,并根据体系结构的差异将其分为四类。介绍了这四类分布式强化学习系统的体系结构,形式化定义了它们的结构框架,描述了它们的主要组成部分的相互关系,讨论了它们的特点和适用范围等。 研究了分布式强化学习系统的结构信度分配方法。针对目前仅有的两种结构信度分配方法显失公平、不能真正体现智能体贡献大小的现象,提出了一种通过比较智能体动作的变化来分配信度的非线形规划方案,并通过对计算过程的分解获得了可行的结构信度分配算法,然后根据强化学习是一种增量式学习的特点将此算法修订为增量式的结构信度分配算法。 研究了独立强化学习系统内的信息共享方式,规范化了几种主要信息共享方式的算法流程,并比较了这几种主要信息共享方式的特点和适用范围。提出了基于有色轨道理论和基于状态分量重要性的两种状态空间划分方法,这两种方法可以压缩独立强化学习系统的学习空间,加快学习速度。 针对群体强化学习系统的学习空间随着智能体个数的增加而指数级膨胀的问题,提出了一种基于预测的群体强化学习算法。这种方法可以削减学习 哈尔滨工程大学博士学位论文 单元的冗余状态信息,降低学习空间的组合强度,加快群体强化学习算法的 学习速度。 以多水下机器人的编队任务为例探讨了分布式强化学习在多机器人系统 中的应用模式。仿真实验系统实现了多机器人的编队学习功能和避碰学习功 能,实验结果表明机器人能够形成规整的队形,并能在通过障碍物或队形被 打乱后迅速重新回到编队位置。
【学位授予单位】:哈尔滨工程大学
【学位级别】:博士
【学位授予年份】:2003
【分类号】:TP242

知网文化
【引证文献】
中国博士学位论文全文数据库 前6条
1 向馗;复杂系统的模式发现[D];浙江大学;2006年
2 陈光柱;免疫决策关键技术研究[D];四川大学;2006年
3 严勇杰;多机器人系统协调与控制研究[D];哈尔滨工程大学;2007年
4 黄炳强;强化学习方法及其应用研究[D];上海交通大学;2007年
5 杨茂;群体机器人系统分布式协同控制方法与协同行为分析[D];吉林大学;2010年
6 熊举峰;群机器人分布控制及优化[D];中南大学;2009年
中国硕士学位论文全文数据库 前5条
1 闫慈;基于强化学习的多机器人气味源搜索[D];天津大学;2012年
2 任牧青;基于声观通的AUV三维编队控制方法研究[D];哈尔滨工程大学;2011年
3 李力坤;多机器人协作算法及仿真研究[D];哈尔滨工业大学;2006年
4 梅昊;群体机器人系统协同适应性研究[D];吉林大学;2007年
5 薛丽华;多智能体协作学习方法的研究[D];长沙理工大学;2008年
【参考文献】
中国期刊全文数据库 前10条
1 李春贵,吴沧浦,刘永信;一种集成规划的SARSA(λ)强化学习算法[J];北京理工大学学报;2002年03期
2 杨璐,洪家荣,黄梯云;用加强学习方法解决基于神经网络的时序实时建模问题[J];哈尔滨工业大学学报;1996年04期
3 张汝波,杨广铭,顾国昌,张国印;Q-学习及其在智能机器人局部路径规划中的应用研究[J];计算机研究与发展;1999年12期
4 高阳,周志华,何佳洲,陈世福;基于Markov对策的多Agent强化学习模型及算法研究[J];计算机研究与发展;2000年03期
5 蔡庆生,张波;一种基于Agent团队的强化学习模型与应用研究[J];计算机研究与发展;2000年09期
6 陈卫东,董胜龙,席裕庚;基于开放式多智能体结构的分布式自主机器人系统[J];机器人;2001年01期
7 曹长江,张琛,冯建智;多微型机器人系统的协调策略的研究[J];机器人;2001年03期
8 梁建宏,王田苗,魏洪兴,刘淼,王晓君;水下仿生机器鱼的研究进展IV——多仿生机器鱼协调控制研究[J];机器人;2002年05期
9 王跃,谭民,景奉水,侯增广;多机器人协调操作大型物体的运动学分析及应用[J];机器人;2002年05期
10 韩学东,洪炳熔,孟伟;多机器人任意队形分布式控制研究[J];机器人;2003年01期
【共引文献】
中国期刊全文数据库 前10条
1 丛春瑜;利用Web Services实现网络个性化学习[J];安徽广播电视大学学报;2004年02期
2 郑宇;罗四维;吕子昂;;基于模型的层次化强化学习算法[J];北京交通大学学报;2006年05期
3 陈阳舟;黄旭;代桂平;;基于新的状态划分的多机器人围捕策略[J];北京工业大学学报;2010年08期
4 孙若莹;李忱;赵刚;;基于强化学习的牛鞭效应对策模型[J];北京信息科技大学学报(自然科学版);2011年01期
5 李春贵,吴沧浦,刘永信;一种集成规划的SARSA(λ)强化学习算法[J];北京理工大学学报;2002年03期
6 苏治宝,陆际联,童亮;一种多移动机器人协作围捕策略[J];北京理工大学学报;2004年05期
7 刘向东;崔晓婷;王华;张宇河;;TD再励学习在卫星姿态控制中的应用[J];北京理工大学学报;2006年03期
8 毕金波,吴沧浦;有效的自适应λ即时差异学习(英文)[J];Journal of Beijing Institute of Technology(English Edition);1999年03期
9 王雪松,程玉虎,彭光正;Modeling and Simulation of Time Series Prediction Based on Dynamic Neural Network[J];Journal of Beijing Institute of Technology(English Edition);2004年02期
10 林海,孙吉贵;预测及其主要模型的实现系统[J];吉林大学学报(信息科学版);2002年04期
中国重要会议论文全文数据库 前10条
1 陈泰任;曹卫华;吴敏;雷琪;;一种新的集成模型在焦炉火道温度软测量中的应用[A];第二十六届中国控制会议论文集[C];2007年
2 ;Reinforcement Strategy Using Quantum Amplitude Amplification for Robot Learning[A];第二十六届中国控制会议论文集[C];2007年
3 沈捷;王莉;林锦国;费树岷;;基于Leader-following方式的多移动机器人队形控制方法研究[A];第二十七届中国控制会议论文集[C];2008年
4 ;Sample-Based Potentials Estimation for the Optimal Control of Stochastic System[A];中国自动化学会控制理论专业委员会D卷[C];2011年
5 韩翃;康凤举;王圣洁;姚林海;;多UUV编队队形控制仿真智能决策技术研究[A];2011'中国西部声学学术交流会论文集[C];2011年
6 郭成安;李建华;李明伟;;从观测数据学习后验概率函数:一种最佳神经网络模型的设计与分析[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
7 胡光华;;平均准则TD策略迭代算法[A];中国运筹学会第六届学术交流会论文集(上卷)[C];2000年
8 胡光华;殷英;李世云;;即时差分策略迭代算法[A];中国运筹学会第七届学术交流会论文集(下卷)[C];2004年
9 陈焕文;谢丽娟;谢建平;;TD方法与BP神经网络结合构造预测学习系统的算法分析与实现[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
10 王直杰;方建安;邵世煌;;一种增强式学习算法及其在控制中的应用[A];1996中国控制与决策学术年会论文集[C];1996年
中国博士学位论文全文数据库 前10条
1 张子迎;多机器人协作及环境建模技术研究[D];哈尔滨工程大学;2009年
2 林龙信;仿生水下机器人的增强学习控制方法研究[D];国防科学技术大学;2010年
3 夏益民;基于传感器信息融合的移动机器人定位与地图创建研究[D];广东工业大学;2011年
4 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
5 吴皓;基于服务任务导向的机器人地图构建研究[D];山东大学;2011年
6 邵杰;基于学习分类器的多机器人路径规划关键技术研究[D];南京理工大学;2011年
7 张鸿辉;多智能体城市规划空间决策模型及其应用研究[D];中南大学;2011年
8 李雄;飞行危险天气下的航班改航路径规划研究[D];南京航空航天大学;2009年
9 蔡军;家电产品市场营销研究[D];天津大学;2010年
10 李珺;基于强化学习的多机器人追捕问题研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 沈扬;协商僵局消解优化问题研究[D];郑州大学;2010年
2 张家飞;机器人群体协同任务规划与协调避碰[D];哈尔滨工程大学;2010年
3 王月;基于群集智能的多水下机器人协调研究[D];哈尔滨工程大学;2010年
4 何太云;Robocup小型组足球机器人设计与优化[D];大连理工大学;2010年
5 李志强;Q学习在单路口交通信号控制中的应用研究[D];长沙理工大学;2010年
6 陈哲平;基于MSRS 5vs5仿真足球机器人决策系统的研究[D];长沙理工大学;2010年
7 赵慧静;面向任务的多移动机器人体系结构优化的研究[D];沈阳理工大学;2010年
8 张大伟;密封价格土地拍卖工作流的研究与仿真[D];江南大学;2010年
9 贾晓冬;Multi-Agent在建筑工程预算系统中的应用研究[D];长春工业大学;2010年
10 孙晖;自然计算求解QoS组播路由[D];西安电子科技大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 贾秋玲;李广文;闫建国;;水下编队航行机器人的前馈加反馈控制器设计[J];兵工学报;2007年08期
2 位耀光,郑德玲,付冬梅,周颖;基于生物免疫系统克隆选择机理和免疫网络理论的免疫算法[J];北京科技大学学报;2005年02期
3 苏治宝,陆际联,童亮;一种多移动机器人协作围捕策略[J];北京理工大学学报;2004年05期
4 刘煜辉 ,曾诗宏;时间序列的先锋——记2003年诺贝尔经济学奖获得者格兰杰和恩格尔[J];银行家;2003年11期
5 王立舒;戚国强;司震宇;钮志勇;;水稻栽培模拟优化专家决策咨询系统的研究[J];东北农业大学学报;2005年06期
6 宋之杰,高晓红;一种多指标综合评价中确定指标权重的方法[J];燕山大学学报;2002年01期
7 苗建松;孙丹丹;丁炜;;移动Adhoc网络中改进的动态源路由算法研究[J];电子科技大学学报;2008年01期
8 刘成林;田玉平;;具有不同通信时延的多个体系统的一致性[J];东南大学学报(自然科学版);2008年01期
9 焦李成,杜海峰;人工免疫系统进展与展望[J];电子学报;2003年10期
10 刘若辰,杜海峰,焦李成;一种免疫单克隆策略算法[J];电子学报;2004年11期
中国博士学位论文全文数据库 前10条
1 蒋萍;融合机器人视/嗅觉信息的气体泄漏源定位[D];天津大学;2010年
2 李吉功;室外时变气流环境下机器人气味源定位[D];天津大学;2010年
3 李玉榕;信息融合与智能处理的研究[D];浙江大学;2001年
4 谢爱华;“突现论”中的哲学问题[D];中国社会科学院研究生院;2000年
5 荔建琦;进化决策的模型、关键技术与应用研究[D];中国人民解放军国防科学技术大学;2002年
6 薛宏涛;基于协进化机制的多智能体系统体系结构及多智能体协作方法研究[D];中国人民解放军国防科学技术大学;2002年
7 宋华明;混合流水生产系统的多目标协同优化研究[D];南京理工大学;2003年
8 郭庆;多Agent系统协商中若干关键技术的研究[D];浙江大学;2003年
9 徐雪松;基于人工免疫系统的函数优化及其在复杂系统中的应用研究[D];浙江大学;2004年
10 洪伟;移动机器人系统中分布式传感器信息融合方法及路径规划问题的研究[D];吉林大学;2004年
中国硕士学位论文全文数据库 前10条
1 张进;基于智能体的多机器人协作的仿真系统[D];南京理工大学;2003年
2 王兢;水下机器人编队系统研究[D];哈尔滨工程大学;2003年
3 梁金海;基于多智能体的军用智能水下机器人体系结构研究[D];哈尔滨工程大学;2003年
4 陈雪江;基于强化学习的多机器人协作机制研究[D];浙江工业大学;2004年
5 李桥兴;多属性决策中指标权重确定的理论研究与应用[D];广西大学;2004年
6 赵剑;基于一种混合遗传算法的模糊控制器的研究[D];武汉科技大学;2004年
7 郑宏琨;基于多智能体水下机器人的协调研究[D];哈尔滨工程大学;2004年
8 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
9 徐宏根;多水下机器人编队协调问题研究[D];哈尔滨工程大学;2005年
10 许彦营;多水下机器人通信及协调方法研究[D];哈尔滨工程大学;2006年
【二级引证文献】
中国期刊全文数据库 前10条
1 周淑俐;章韵;陈志;扈罗全;岳文静;;基于Q学习的多Sink节点无线传感网路由机制研究[J];传感技术学报;2011年10期
2 韩道军;夏兰亭;卓汉逵;李磊;;基于强化学习的业务流程中的柔性约束研究[J];计算机科学;2011年03期
3 乔林;罗杰;;学习过程中共享经验的Q学习算法的研究[J];计算机科学;2012年05期
4 段俊花;朱怡安;钟冬;;群智能在多智能体系统中的应用研究进展[J];计算机科学;2012年06期
5 王薇;杨兆升;赵丁选;;有限阶段马尔可夫决策的可变限速控制模型[J];交通运输工程学报;2011年05期
6 姚慧;;群体协同:促进突发公共事件应急决策发展的新机制[J];价值工程;2012年02期
7 马占飞;郑雪峰;;“免疫软件人”概念及其协商控制模型[J];控制与决策;2010年05期
8 乔林;罗杰;;MAS中基于多奖惩标准的Q学习算法研究[J];计算机科学;2012年S1期
9 刘弘;郑向伟;王吉华;;多Agent协同设计系统学习机制[J];兰州大学学报(自然科学版);2012年04期
10 张文柱;邵丽娜;;异构无线网络中基于强化学习的频谱管理算法[J];西安电子科技大学学报;2011年04期
中国博士学位论文全文数据库 前6条
1 杨斯博;基于自组织多Agent系统的智能控制与决策研究[D];天津大学;2012年
2 李科;移动机器人全景视觉归航技术研究[D];哈尔滨工程大学;2011年
3 雷艳敏;多机器人系统的动态路径规划方法研究[D];哈尔滨工程大学;2011年
4 杨永明;群体机器人系统协同行为研究[D];吉林大学;2009年
5 杨茂;群体机器人系统分布式协同控制方法与协同行为分析[D];吉林大学;2010年
6 王忠巍;自主海底管道机器人智能控制关键技术研究[D];上海交通大学;2010年
中国硕士学位论文全文数据库 前10条
1 纪兴;基于行为的多机器人体系结构研究[D];哈尔滨工程大学;2010年
2 姜新丽;基于强化学习的多机器人协作控制方法研究[D];沈阳理工大学;2010年
3 申迅;基于3D仿真机器人系统的学习控制与算法研究[D];江南大学;2011年
4 刘宗春;群体机器人系统协同一致行为控制算法设计与仿真研究[D];吉林大学;2011年
5 袁野;基于强化学习算法的互联电网AGC随机最优控制[D];华南理工大学;2011年
6 胡细兵;基于强化学习算法的最优潮流研究[D];华南理工大学;2011年
7 王静玉;基于增强学习的无线传感器网络自组织方法研究[D];南京邮电大学;2011年
8 赵广祥;基于红外传感的群体机器人跟队行为研究1[D];上海交通大学;2011年
9 许培;多Agent系统及其在微电网上的应用研究[D];江南大学;2012年
10 苏理;环境探测的多机器人路径规划研究[D];西安电子科技大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 杨璐,洪家荣,黄梯云;用加强学习方法解决基于神经网络的时序实时建模问题[J];哈尔滨工业大学学报;1996年04期
2 张汝波,杨广铭,顾国昌,张国印;Q-学习及其在智能机器人局部路径规划中的应用研究[J];计算机研究与发展;1999年12期
3 高阳,周志华,何佳洲,陈世福;基于Markov对策的多Agent强化学习模型及算法研究[J];计算机研究与发展;2000年03期
4 蔡庆生,张波;一种基于Agent团队的强化学习模型与应用研究[J];计算机研究与发展;2000年09期
5 谭民,范永,徐国华;机器人群体协作与控制的研究[J];机器人;2001年02期
6 曹长江,张琛,冯建智;多微型机器人系统的协调策略的研究[J];机器人;2001年03期
7 王越超,谈大龙;协作机器人学的研究现状与发展[J];机器人;1998年01期
8 张汝波,周宁,顾国昌,张国印;基于强化学习的智能机器人避碰方法研究[J];机器人;1999年03期
9 李建民;石纯一;;DAI中多Agent协调方法及其分类[J];计算机科学;1998年02期
10 郭茂祖;陈彬;王晓龙;洪家荣;;加强学习[J];计算机科学;1998年03期
【相似文献】
中国期刊全文数据库 前10条
1 樊建;郑昌陆;费敏锐;高志年;;基于角色变换和强化学习的多机器人协同仿真[J];系统仿真学报;2009年21期
2 王醒策,张汝波,顾国昌;多机器人动态编队的强化学习算法研究[J];计算机研究与发展;2003年10期
3 邵杰;杜丽娟;杨静宇;;基于ILCS的多机器人强化学习策略[J];通信技术;2010年04期
4 宋梅萍,顾国昌,张汝波;移动机器人的自适应式行为融合方法[J];哈尔滨工程大学学报;2005年05期
5 王醒策,张汝波,顾国昌;基于强化学习的多机器人编队方法研究[J];计算机工程;2002年06期
6 王云;韩伟;;对称协调博弈问题的多智能体强化学习[J];计算机工程与应用;2008年36期
7 童亮,陆际联;基于强化学习的多智能体协作方法研究[J];计算机测量与控制;2005年02期
8 殷翔,黄展翔;强化学习在仿真机器人足球踢球动作中的应用[J];苏州大学学报(工科版);2002年04期
9 李春贵,刘永信;一种有限时段Markov决策过程的强化学习算法[J];广西工学院学报;2003年01期
10 刘菲;曾广周;;基于强化学习的多移动Agent学习算法[J];计算机工程与应用;2006年05期
中国重要会议论文全文数据库 前10条
1 文锋;陈宗海;陈春林;;基于RLS-TD和值梯度的强化学习方法用于LQR控制问题[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
2 卓睿;陈宗海;陈春林;;强化学习在移动机器人导航上的应用[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
3 张伟;李建更;张家旺;;多智能体强化学习在机器人足球比赛中的应用[A];2005年中国智能自动化会议论文集[C];2005年
4 张家旺;韩光胜;张伟;;基于ASPL模型的多智能体强化学习在RoboCup中的应用[A];2005中国机器人大赛论文集[C];2005年
5 敬斌;田野;;Robocup中的传球策略[A];2005中国机器人大赛论文集[C];2005年
6 陈春林;陈宗海;卓睿;;分层式强化学习的定性空间表达[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
7 涂自然;王维;梁以业;禹建丽;;基于强化学习的自适应变步长机器人路径规划算法[A];2003年中国智能自动化会议论文集(上册)[C];2003年
8 王磊;孙增圻;;基于意图识别的多机器人动态联合协作模型1[A];2005年中国智能自动化会议论文集[C];2005年
9 叶道年;陈卫东;;机器人团队协作的强化学习[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
10 方宝富;王浩;姚宏亮;杨静;周晋;;Q学习在机器人足球中的应用[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 孙佳宇;强化学习教育 增强服务意识[N];人民公安报;2009年
2 记者 刘琰;强化学习 增强本领 扎实工作[N];周口日报;2009年
3 首席记者 朱丽华;强化学习 落实责任 确保取得实效[N];盘锦日报;2009年
4 王良豪 记者 刘伟 龙先华;通过创新工作取得活动效果[N];六盘水日报;2008年
5 书分;解放区审计局强化学习抓作风[N];焦作日报;2006年
6 谭育才;强化学习 克己奉公[N];赤峰日报;2008年
7 章斌、特约记者夏吉龙;8710部队 破解难题强化学习教育效果[N];人民武警;2010年
8 通讯员 马全有;强化学习 搞好服务 解放思想[N];甘肃法制报;2007年
9 李北川;强化学习 找准问题 着力整改[N];凉山日报(汉);2007年
10 陈滟澎 张玮(作者单位:市交通局公路处);强化学习提高机关办事效能[N];廊坊日报;2006年
中国博士学位论文全文数据库 前10条
1 仲宇;分布式强化学习理论及在多机器人中的应用研究[D];哈尔滨工程大学;2003年
2 李珺;基于强化学习的多机器人追捕问题研究[D];哈尔滨工业大学;2010年
3 金钊;加速强化学习方法研究[D];云南大学;2010年
4 徐明亮;强化学习及其应用研究[D];江南大学;2010年
5 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
6 李相鹏;连通性约束的多机器人集合及导航[D];中国科学技术大学;2011年
7 李飞;湍动气流主控环境下多机器人气味源定位[D];天津大学;2009年
8 庄晓东;多移动机器人运动控制策略的强化学习研究[D];中国海洋大学;2005年
9 李誌;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年
10 常文君;基于神经网络的多水下机器人协调控制方法研究[D];哈尔滨工程大学;2004年
中国硕士学位论文全文数据库 前10条
1 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
2 宋梅萍;多移动机器人协作任务的分布式决策控制系统[D];哈尔滨工程大学;2003年
3 卢方国;强化学习在个性化信息Agent的应用研究[D];广东工业大学;2004年
4 刘飞;强化学习方法在多机器人博弈系统中的应用研究[D];华北电力大学(北京);2011年
5 郭一明;基于强化学习的劣化系统维修策略研究[D];合肥工业大学;2011年
6 钱征;基于强化学习的倒立摆控制研究[D];北京工业大学;2005年
7 王瑞霞;基于强化学习的倒立摆控制[D];北京工业大学;2005年
8 王醒策;基于强化学习的多机器人编队方法研究[D];哈尔滨工程大学;2002年
9 闫慈;基于强化学习的多机器人气味源搜索[D];天津大学;2012年
10 顾鑫;个性化智能信息检索系统研究[D];哈尔滨工程大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026