收藏本站
《哈尔滨工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于强化学习的多机器人追捕问题研究

李珺  
【摘要】:多机器人协调与协作问题是多机器人系统研究的热点之一。多机器人追捕问题是研究多智能体机器人系统中多机器人协调与协作问题的理想平台。它主要研究多个追捕者捕获运动的多个逃跑者的动态过程中通过相互间的协作与协调使追捕者间避免冲突,获利最大的最优协作追捕算法。同时它涵盖了实时视觉处理、无线通讯、实时动态路径规划、多机器人分布式协调与控制、多机器人规划与学习、机器人团队之间的竞争与合作等多学科、多领域知识。 强化学习是学习如何把状态映射到动作,并且使得用数字表示的奖励信号最大的一种学习方法。将强化学习应用到多机器人追捕问题中,使追捕机器人能够主动的试探环境,在与环境交互的动态过程中获得知识,不断地提高系统自身的性能,通过积累经验明确系统当前性能与目标性能之间的距离,实施改进操作,提高系统追捕效率。 本文以多个机器人追捕多个逃跑目标的过程为背景,探索多体机器人的协作机制为导向,提高多体机器人的协作效率为目的,研究了多个理性智能体在动态复杂环境下的协调与协作算法。研究主要包括如下几个方面: 第一,提出了利用多机器人强化学习方法解决多机器人追捕问题的求解方案。根据多逃跑者追捕的需要,分析了协作联盟形成方法,引入关联规则数据挖掘方法进行任务分配,通过对比智能体各项属性及任务需求,针对各逃跑者建立相应的追捕联盟,基于不同状态下的奖励差异提出了一种分段式强化学习方法,利用其作为已知环境下追捕问题的模型求解追捕联盟的协作追捕策略。针对多机器人强化学习将会出现随着智能体数目增加导致的行为状态空间组合爆炸问题,利用降低多智能体系统的规模解决该问题,给出了基于任务规划多智能体强化学习方法及基于案例推理的多智能体强化学习方法,为本文研究未知环境下多机器人追捕行为策略提供了理论基础。 第二,研究已知环境下多个追捕机器人形成追捕团队追捕多个逃跑者的协作追捕策略问题。首先对传统的主从式协作机制进行改进,通过对追捕区域分区减轻系统的负载,接着利用择优函数选择团队成员,形成追捕团队,然后预测逃跑目标下一时刻的位置决定追捕者的行为选择算法。通过分析上述方法的不足之处提出了一种基于关联规则数据挖掘的多机器人追捕策略算法。综合考虑与捕获逃跑目标相关的各种因素建立样本数据集,利用Apriori算法创建追捕团队,最后由于各追捕阶段追捕者与逃跑者之间的状态关系不同所获行为奖励差异,提出了一种分段式强化学习方法来求解多机器人最优协作追捕策略。 第三,研究未知环境下多个追捕机器人形成追捕团队追捕多个逃跑者的最优协作追捕策略问题。首先通过有选择的循环搜索法对逃跑目标进行搜索,发现目标后,基于目标分解与分配的理论基础,通过整数规划模型求解各目标的追捕团队。接着根据任务规划的结果,让各协作团队同时分周期独立学习各自的最优行为决策,团队成员根据其他成员在此状态下将要采取的动作行为执行最佳的响应动作,多次重复对策后得到该协作团队的学习目的解。学习过程中由于不同协作团队之间的行为选择相互影响,对学习结果进行周期监督,通过变化学习率来保证学习的有效性。考虑上述方法对于追捕目标分解与分配是相对粗略的,整数规划问题实际求解过程本身也很复杂,创建追捕团队时没有考虑到追捕者之间完成捕获任务的能力互补等问题,提出一种未知环境下结合案例推理强化学习方法的多机器人协作追捕多个逃跑目标策略,创建追捕团队时充分考虑追捕者之间能力互补问题,追捕团队成员协作追捕过程中,追捕者的行为选择同时参照历史经验及实际追捕者与逃跑者所处的状态进行决策。试验结果表明,该算法能够明显提高复杂环境下多机器人协作追捕目标的效率。 第四,开发了多机器人协作追捕目标仿真平台,为深入研究多机器人追捕目标问题提供了一个标准的试验平台。该仿真系统采用模块化设计,便于对新的算法进行仿真研究,并通过各种试验对本文所提方法进行了验证。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP242.2

【相似文献】
中国期刊全文数据库 前10条
1 王建宏;周晟宇;;穿行于加工领域的工业机器人[J];金属加工(热加工);2011年14期
2 夏丽丽;;连续状态-连续行动强化学习[J];电脑知识与技术;2011年19期
3 祝宇虹;毛俊鑫;;基于人工情感与Q学习的机器人行为决策[J];机械与电子;2011年07期
4 刘卫红;周义莲;;强化学习方法在Web服务组合中的应用比较研究[J];计算机应用与软件;2011年07期
5 黄付亮;张荣国;陈大川;刘焜;;基于联合博弈的多Agent学习[J];计算机与数字工程;2011年06期
6 张文柱;邵丽娜;;异构无线网络中基于强化学习的频谱管理算法[J];西安电子科技大学学报;2011年04期
7 李昭阁;;强化学习,更新观念,发挥校园网作用[J];学周刊;2011年12期
8 费燕琼;朱越梁;宋立博;;多模块式移动机器人系统的自组织协作行为[J];上海交通大学学报;2011年07期
9 许培;薛伟;;基于Q-learning的一种多Agent系统结构模型[J];计算机与数字工程;2011年08期
10 常晓军;;基于联合强化学习的RoboCup-2D传球策略[J];计算机工程与应用;2011年23期
中国重要会议论文全文数据库 前10条
1 文锋;陈宗海;陈春林;;基于RLS-TD和值梯度的强化学习方法用于LQR控制问题[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
2 卓睿;陈宗海;陈春林;;强化学习在移动机器人导航上的应用[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
3 王磊;孙增圻;;基于意图识别的多机器人动态联合协作模型1[A];2005年中国智能自动化会议论文集[C];2005年
4 张伟;李建更;张家旺;;多智能体强化学习在机器人足球比赛中的应用[A];2005年中国智能自动化会议论文集[C];2005年
5 张家旺;韩光胜;张伟;;基于ASPL模型的多智能体强化学习在RoboCup中的应用[A];2005中国机器人大赛论文集[C];2005年
6 敬斌;田野;;Robocup中的传球策略[A];2005中国机器人大赛论文集[C];2005年
7 陈春林;陈宗海;卓睿;;分层式强化学习的定性空间表达[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
8 涂自然;王维;梁以业;禹建丽;;基于强化学习的自适应变步长机器人路径规划算法[A];2003年中国智能自动化会议论文集(上册)[C];2003年
9 叶道年;陈卫东;;机器人团队协作的强化学习[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
10 方宝富;王浩;姚宏亮;杨静;周晋;;Q学习在机器人足球中的应用[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 记者 刘琰;强化学习 增强本领 扎实工作[N];周口日报;2009年
2 谭育才;强化学习 克己奉公[N];赤峰日报;2008年
3 章斌、特约记者夏吉龙;8710部队 破解难题强化学习教育效果[N];人民武警;2010年
4 刘莉莉;日本:一年开发这么多机器人,到底谁称王?[N];新华每日电讯;2007年
5 本报记者 高博;丁希仑:快乐“机器人”[N];科技日报;2007年
6 通讯员 马全有;强化学习 搞好服务 解放思想[N];甘肃法制报;2007年
7 李北川;强化学习 找准问题 着力整改[N];凉山日报(汉);2007年
8 陈滟澎 张玮(作者单位:市交通局公路处);强化学习提高机关办事效能[N];廊坊日报;2006年
9 记者 刘莉 实习记者 刘慕欣;兵团党委“保先”教育活动督导组强化学习[N];兵团日报(汉);2005年
10 记者王旭燕、实习生张娜;强化学习抓好落实 确保完成全年目标任务[N];铜川日报;2009年
中国博士学位论文全文数据库 前10条
1 仲宇;分布式强化学习理论及在多机器人中的应用研究[D];哈尔滨工程大学;2003年
2 李珺;基于强化学习的多机器人追捕问题研究[D];哈尔滨工业大学;2010年
3 李飞;湍动气流主控环境下多机器人气味源定位[D];天津大学;2009年
4 金钊;加速强化学习方法研究[D];云南大学;2010年
5 徐明亮;强化学习及其应用研究[D];江南大学;2010年
6 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
7 庄晓东;多移动机器人运动控制策略的强化学习研究[D];中国海洋大学;2005年
8 邵杰;基于学习分类器的多机器人路径规划关键技术研究[D];南京理工大学;2011年
9 常文君;基于神经网络的多水下机器人协调控制方法研究[D];哈尔滨工程大学;2004年
10 李誌;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
2 闫慈;基于强化学习的多机器人气味源搜索[D];天津大学;2012年
3 刘飞;强化学习方法在多机器人博弈系统中的应用研究[D];华北电力大学(北京);2011年
4 宋梅萍;多移动机器人协作任务的分布式决策控制系统[D];哈尔滨工程大学;2003年
5 卢方国;强化学习在个性化信息Agent的应用研究[D];广东工业大学;2004年
6 郭一明;基于强化学习的劣化系统维修策略研究[D];合肥工业大学;2011年
7 王醒策;基于强化学习的多机器人编队方法研究[D];哈尔滨工程大学;2002年
8 钱征;基于强化学习的倒立摆控制研究[D];北京工业大学;2005年
9 王瑞霞;基于强化学习的倒立摆控制[D];北京工业大学;2005年
10 顾鑫;个性化智能信息检索系统研究[D];哈尔滨工程大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026