收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

分布式强化学习理论及在多机器人中的应用研究

仲宇  
【摘要】:强化学习是近年发展起来的一种新的人工智能方法。由于人类对脑的真实结构了解甚少,至今无法清楚地解释智能的本质,只能依靠对人类智能系统的观察和猜测来定义人工智能系统的结构和外部特性,这种传统的基于逻辑规则的人工智能方法有诸多缺陷,所以人们转向了让人工智能系统通过自我学习来逐渐地获得智能的研究方向。强化学习就是这样一种机器学习方法,它模拟动物学习过程,通过试探的方法修正从状态到动作的映射策略,最终学会在各种环境状态下采取最好的反应行为,从而提高智能系统的自适应性和鲁棒性。 机器人是对人类个体的仿生,而多机器人系统是对人类社会的仿生。由于学习、交流和协作是人类的本质特征,所以对多机器人系统中的分布式强化学习问题的研究具有重要意义。现有的分布式强化学习方法还存在着结构信度分配困难、学习速度慢等缺陷,这些缺陷大大限制了分布式强化学习方法的应用范围。本文对分布式强化学习理论进行了系统地研究,并对其存在的部分问题提出了初步的解决办法。 系统地介绍了强化学习的基本原理、体系结构和主要算法,研究了各种强化学习算法的特点和适用范围。 研究了分布式强化学习系统的体系结构和主要算法,并根据体系结构的差异将其分为四类。介绍了这四类分布式强化学习系统的体系结构,形式化定义了它们的结构框架,描述了它们的主要组成部分的相互关系,讨论了它们的特点和适用范围等。 研究了分布式强化学习系统的结构信度分配方法。针对目前仅有的两种结构信度分配方法显失公平、不能真正体现智能体贡献大小的现象,提出了一种通过比较智能体动作的变化来分配信度的非线形规划方案,并通过对计算过程的分解获得了可行的结构信度分配算法,然后根据强化学习是一种增量式学习的特点将此算法修订为增量式的结构信度分配算法。 研究了独立强化学习系统内的信息共享方式,规范化了几种主要信息共享方式的算法流程,并比较了这几种主要信息共享方式的特点和适用范围。提出了基于有色轨道理论和基于状态分量重要性的两种状态空间划分方法,这两种方法可以压缩独立强化学习系统的学习空间,加快学习速度。 针对群体强化学习系统的学习空间随着智能体个数的增加而指数级膨胀的问题,提出了一种基于预测的群体强化学习算法。这种方法可以削减学习 哈尔滨工程大学博士学位论文 单元的冗余状态信息,降低学习空间的组合强度,加快群体强化学习算法的 学习速度。 以多水下机器人的编队任务为例探讨了分布式强化学习在多机器人系统 中的应用模式。仿真实验系统实现了多机器人的编队学习功能和避碰学习功 能,实验结果表明机器人能够形成规整的队形,并能在通过障碍物或队形被 打乱后迅速重新回到编队位置。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 程远;机器人软件编程方法[J];无锡职业技术学院学报;2002年02期
2 孟庆鑫,王茁,王殿君,王立权,屠治国;“穿地龙”机器人总体方案分析与研究[J];哈尔滨工程大学学报;2003年03期
3 丁滢颍;何衍;蒋静坪;;基于个性演化的多机器人自组织[J];模式识别与人工智能;2003年02期
4 张汝波,王兢,孙世良;具有环境自适应能力的多机器人编队系统研究[J];机器人;2004年01期
5 王京;机器人时代向我们走来——日本爱知世博会侧闻[J];机器人技术与应用;2005年04期
6 孙博云;谭定忠;;检线机器人功能与结构的设计[J];机械工程师;2006年01期
7 李香;李亮玉;李峰;张少东;;机器人焊接过程控制参数实时修正的实现[J];焊接技术;2007年04期
8 赵小川;罗庆生;韩宝玲;;机器人多传感器信息融合研究综述[J];传感器与微系统;2008年08期
9 苏鸿明;陈雄;韩建达;;多机器人的改进型边界探索算法[J];系统工程与电子技术;2009年04期
10 赵强;岳永恒;;仿生连续体机器人的研究现状和展望[J];机械设计;2009年08期
11 蒋荣欣;田翔;谢立;陈耀武;;一种多机器人编队协同定位的方法[J];哈尔滨工业大学学报;2010年01期
12 姚俊武;;自重构机器人协作功能的规划与实现[J];黄石理工学院学报;2010年05期
13 李强;刘国栋;;基于行为的机器人自适应队形控制[J];计算机系统应用;2011年04期
14 曾闵;张华;胡莉;;硬件计数器在机器人差分定位上的应用[J];科学技术与工程;2011年11期
15 李宇波;朱效洲;张辉;卢惠民;;救援机器人技术研究进展[J];机器人技术与应用;2011年06期
16 宋玉丽;张国有;曾建潮;薛颂东;;面向多目标搜索的群机器人任务分配研究[J];太原科技大学学报;2012年04期
17 张彦铎;李哲靖;鲁统伟;;机器人世界杯足球锦标赛中多机器人对目标协同定位算法的改进[J];武汉工程大学学报;2013年02期
18 宁祎;闫铭;杜宽森;;基于行为的机器人自学习方法研究[J];制造业自动化;2013年04期
19 李文锋;董文涛;;仅考虑位置信息连通性保持的群体机器人集结控制[J];控制与决策;2013年05期
20 朱国昕;;胶囊机器人活检机构的研究[J];机械设计与制造;2013年06期
中国重要会议论文全文数据库 前10条
1 石为人;周伟;王楷;苏士娟;;家庭清洁机器人自主充电研究[A];2010中国仪器仪表与测控技术大会论文集[C];2010年
2 李长松;孙国林;韩胜利;;机器人料箱取件形式及控制方法[A];2013中国汽车工程学会年会论文集[C];2013年
3 孟正大;戴先中;;基于神经网络逆系统方法的机器人柔顺性控制[A];江苏省自动化学会七届四次理事会暨2004学术年会青年学者论坛论文集[C];2004年
4 陈天皓;钱成;谈英姿;;类人足球仿真机器人快速起身方法的实现[A];2007年足球机器人大会论文集[C];2007年
5 薛慧婷;罗熊;胡海东;游美玲;邱新涛;;基于颜色特征的漂浮机器人三点定位系统[A];2009年中国智能自动化会议论文集(第五分册)[东南大学学报(增刊)][C];2009年
6 胡海东;赵清杰;;机器人的惯性/视觉组合定位方法[A];2009年中国智能自动化会议论文集(第七分册)[南京理工大学学报(增刊)][C];2009年
7 顾新兴;孙燕朴;冯纯伯;;一种新的双机器人协调路径规划方法[A];1995中国控制与决策学术年会论文集[C];1995年
8 陶军;高翔;周全;李晓亚;;利用自学习算法为机器人选择最优目标点的决策设计[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
9 王大川;张辉;季秀才;郑志强;;救援环境下基于激光传感器的机器人环境建图以及自定位[A];2007年足球机器人大会论文集[C];2007年
10 王淑慧;吴立成;袁海文;;一种水上行走机器人的模糊控制[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年
中国博士学位论文全文数据库 前10条
1 王玲;未知环境中基于相对观测量的多机器人合作定位研究[D];国防科学技术大学;2006年
2 王宏;煤矿机器人激光雷达与惯性传感器导航理论及实验研究[D];中国矿业大学(北京);2011年
3 李飞;湍动气流主控环境下多机器人气味源定位[D];天津大学;2009年
4 仲宇;分布式强化学习理论及在多机器人中的应用研究[D];哈尔滨工程大学;2003年
5 李吉功;室外时变气流环境下机器人气味源定位[D];天津大学;2010年
6 靳国强;智能服务机器人分层任务规划的非单调理论与实现[D];中国科学技术大学;2012年
7 张栋;基于空中机器人平台的运动目标检测和视觉导航[D];浙江大学;2013年
8 吴皓;基于服务任务导向的机器人地图构建研究[D];山东大学;2011年
9 石朝侠;基于多机器人协作的未知环境下路径探索研究[D];哈尔滨工业大学;2007年
10 于涛;球形机器人坡面运动的控制方法研究[D];北京邮电大学;2014年
中国硕士学位论文全文数据库 前10条
1 张帅;服务型机器人设计与前瞻性研究[D];浙江大学;2008年
2 张志民;自动扶梯梯级机器人去毛刺系统的开发应用[D];同济大学;2006年
3 魏小博;基于蚁群算法的机器人主动嗅觉研究[D];天津大学;2007年
4 尹香花;基于强化学习的多机器人行为式队形控制策略研究[D];吉林大学;2009年
5 张莉莉;多机器人合作定位技术研究[D];中南大学;2009年
6 杨志鹏;导游机器人的设计与实现[D];浙江大学;2010年
7 王楠;胶囊机器人转弯动力学特性研究[D];大连理工大学;2010年
8 杨璐;基于智能体的多机器人协作研究及仿真[D];南京理工大学;2006年
9 徐丽;基于并行蚁群算法的多机器人协作研究[D];东北电力大学;2007年
10 申丽曼;室内环境下多机器人协作建图方法的研究[D];中南大学;2007年
中国重要报纸全文数据库 前5条
1 克 军;小小机器人军团[N];大众科技报;2003年
2 张劲 戚峰;变电站的“机器人骨干”[N];中国电力报;2009年
3 本报通讯员 张劲 戚峰;电力机器人的“神通”[N];工人日报;2009年
4 吴鸿;微型机器人引领反恐潮流[N];中国商报;2003年
5 卢家兴;中科院研制出能应付复杂地形的机器人[N];大众科技报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978