收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

强化学习及其应用研究

徐明亮  
【摘要】: 强化学习作为一种重要的机器学习方法,其最显著的特点是通过与环境交互,利用环境反馈的奖惩,即增强信号来调整和改善自己的行为,最终获得最佳策略。由于该方法具有对环境的先验知识要求低,可以在实时环境中进行在线学习,因此受到许多研究者的关注,同时在智能控制,序列决策等领域也得到了广泛应用。 强化学习的根本任务就是学习从状态空间到动作空间的映射,其本质就是用参数化的函数来逼近“状态—动作”的映射关系,而这种映射关系可由状态值函数或状态—动作对值函数来确定。经典的强化学习方法都是建立在以查找表的方式来描述值函数的小规模、离散的状态和动作空间的基础之上。为改善和提高强化学习在大规模的离散状态动作空间和连续状态空间或动作空间的性能,研究者们在强化学习中引入分层学习技术和泛化技术。 就分层技术而言,典型的技术有OPTION、HAM(包括PHAM)、MAXQ这三类方法。分层强化学习的关键在于任务的自动分层。由于OPTION方法特别适合于分区或分段子任务的自动划分,并且子任务粒度易于控制。因此OPTION方法在根据状态空间中的瓶颈状态进行任务分层和子任务自动构造中的方法中应用最为广泛。就泛化技术而言,通常是在强化学习中引入具有泛化性能的神经网络技术和模糊推理技术。由于Q-学习具有实现简单,易于理解的优点,因此应用非常广泛。在所有以神经网络或模糊推理系统来逼近Q值函数的方法中都是采用间接逼近的方法,即神经网络或模糊推理系统的输入为状态,只逼近若干个预先选定的离散动作的Q值,动作输出也是基于这些选定的种子动作为基础产生。而种子动作的选择没有任何先验知识,选择的好坏直接影响强化学习系统的学习性能。文章在对强化学习的研究背景和相关理论进行概述和对相关文献综述基础之上,对分层强化学习中基于瓶颈状态的OPTION自动分层技术以及基于神经网络和模糊推理系统Q值函数逼近进行了研究。 轮式移动机器人是一种能够在环境中自主移动并完成预定任务的智能系统,在工业、农业、民用以及军事等领域具有广泛的应用前景。在轮式移动机器人的各项研究和应用中,导航是最基本和最重要的问题。由于强化学习具有较强的在线自适应性和对复杂系统的自学习能力,因此其在机器人导航研究中受到了广泛的关注。本文以轮式移动机器人沿墙导航控制为主要研究内容,研究了基于强化学习的移动机器人反应式导航问题。 文章的主要内容和成果如下: 1.提出了基于禁忌状态的OPTION自动构造方法。在这个方法中,通过在基于瓶颈状态的OPTION的自动分层技术中引入禁忌状态,使得agent在与环境的交互过程中自动构造以瓶颈状态为子目标的OPTION.与相关文献相比该方法的主要特点是不仅能自动搜索到环境中的瓶颈状态,还能自动搜索OPTION的起始状态,自动构造OPTION的起始集,同时在搜索过程中对OPTION的内部策略进行学习。网格环境的仿真实验验证了该方法能够实现OPTION三要素的自动构造。 2.为避免种子动作的选择,文章对Q-学习中的动作值函数逼近进行了研究。虽然RBF网络规模较大,但是它具有全局逼近和局部逼近的性能,同时还具有学习速度快的优点,因此文章对采用RBF网络和实现动作值函数直接逼近分别进行了研究,提出了RBFQ强化学习系统,在该系统中网络的输入为状态动作对,输出即为输入的Q值。利用TD误差和当前状态动作对与基函数之间距离对网络结构和参数进行自适应调整,同时将优化技术引入到强化学习中来,以函数优化技术实现贪婪动作的搜索,并用经典的倒立摆平衡控制仿真实验验证了RBFQ方法的有效性。 3.由于模糊推理系统具有万能逼近的性质,同时还具有可解释性,便于在系统中嵌入已有经验和知识,因此文章对采用模糊推理系统实现动作值函数直接逼近也进行了研究,提出了AFQL强化学习系统。利用TD误差和当前状态动作对与模糊基函数之间距离实现模糊规则自动构造,以及对模糊规则的前件和后件进行自适应调整。与RBFQ方法一样,以函数优化技术实现系统的输出动作。倒立摆平衡控制仿实验验证了AFQL方法的有效性。 4.利用本文提出的AFQL强化学习方法对室内机器人沿墙导航进行了仿真研究,仿真结果验证了本文所提的方法能够实现未知环境中移动机器人沿墙导航,也进一步说明了该方法具有良好的学习效率和泛化性能


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王帅;;基于强化学习算法的井下移动机器人路径规划[J];电气技术;2008年08期
2 王帅;;煤矿井下基于Q-learning算法的移动机器人路径规划[J];现代电子技术;2008年24期
3 秦政;丁福光;边信黔;;强化学习在移动机器人自主导航中的应用[J];计算机工程与应用;2007年18期
4 王帅;;动态不确定环境下一种移动机器人路径规划方法[J];电气技术;2010年01期
5 宋梅萍,顾国昌,张汝波;移动机器人的自适应式行为融合方法[J];哈尔滨工程大学学报;2005年05期
6 段勇;崔宝侠;徐心和;;进化强化学习及其在机器人路径跟踪中的应用[J];控制与决策;2009年04期
7 李冬梅,陈卫东,席裕庚;基于强化学习的多机器人合作行为获取[J];上海交通大学学报;2005年08期
8 谢光强;陈学松;;一种新的基于蚁群优化的模糊强化学习算法[J];计算机应用研究;2011年04期
9 赵志宏;黄蕾;刘峰;骆斌;;基于强化学习的多Agent系统规划规则抽取方法[J];广西师范大学学报(自然科学版);2008年01期
10 阮晓钢;蔡建羡;陈静;;基于强化学习规则的两轮机器人自平衡控制[J];计算机测量与控制;2009年02期
11 王雪松;田西兰;程玉虎;马小平;;最小二乘支持向量机在强化学习系统中的应用[J];系统仿真学报;2008年14期
12 马军;殷保群;;基于POMDP模型的机器人行动的仿真优化[J];系统仿真学报;2008年21期
13 殷翔,黄展翔;强化学习在仿真机器人足球踢球动作中的应用[J];苏州大学学报(工科版);2002年04期
14 李春贵,刘永信;一种有限时段Markov决策过程的强化学习算法[J];广西工学院学报;2003年01期
15 刘菲;曾广周;;基于强化学习的多移动Agent学习算法[J];计算机工程与应用;2006年05期
16 宋一然;;基于强化学习的多机器人路径规划方法[J];莆田学院学报;2006年02期
17 何锫;王峰;肖淑苹;;基于异联想记忆Hopfield网络的强化学习[J];微计算机信息;2008年26期
18 段勇;徐心和;;基于模糊神经网络的强化学习及其在机器人导航中的应用[J];控制与决策;2007年05期
19 段勇;杨淮清;崔宝侠;徐心和;;强化学习在足球机器人基本动作学习中的应用[J];机器人;2008年05期
20 刘博;雷汝海;;异质Agent间的知识迁移强化学习[J];中国科技论文在线;2010年02期
中国重要会议论文全文数据库 前10条
1 卓睿;陈宗海;陈春林;;强化学习在移动机器人导航上的应用[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
2 张鑫;闫茂德;刘玉东;巨永锋;;未知环境下基于禁忌搜索的移动机器人自主导航[A];第二十九届中国控制会议论文集[C];2010年
3 张伟;李建更;张家旺;;多智能体强化学习在机器人足球比赛中的应用[A];2005年中国智能自动化会议论文集[C];2005年
4 陈余庆;胡英;马孜;;基于贝叶斯理论的移动机器人相对定位[A];第二十六届中国控制会议论文集[C];2007年
5 赵晖;王天然;刘德林;;分布式数据库在移动机器人中的应用[A];第十届全国数据库学术会议论文集[C];1992年
6 文锋;陈宗海;陈春林;;基于RLS-TD和值梯度的强化学习方法用于LQR控制问题[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
7 李俊泉;尹怡欣;;基于心理动力机制的移动机器人[A];2005年中国智能自动化会议论文集[C];2005年
8 周火凤;马保离;;离轴式拖车移动机器人的路径跟踪控制[A];第二十六届中国控制会议论文集[C];2007年
9 周光明;陈宗海;胡玉锁;陈春林;;复杂未知环境下移动机器人自主探测算法研究[A];'2003系统仿真技术及其应用学术交流会论文集[C];2003年
10 鲁守银;马培荪;姜葵峰;;基于机器人的锅炉鳍片管道自动检测技术[A];首届信息获取与处理学术会议论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 徐明亮;强化学习及其应用研究[D];江南大学;2010年
2 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
3 金钊;加速强化学习方法研究[D];云南大学;2010年
4 仲宇;分布式强化学习理论及在多机器人中的应用研究[D];哈尔滨工程大学;2003年
5 李誌;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年
6 严勇杰;多机器人系统协调与控制研究[D];哈尔滨工程大学;2007年
7 郭庆;多Agent系统协商中若干关键技术的研究[D];浙江大学;2003年
8 郑宇;分层强化学习算法及其应用研究[D];北京交通大学;2009年
9 杨东勇;多机器人协作的学习与进化方法[D];浙江大学;2005年
10 庄晓东;多移动机器人运动控制策略的强化学习研究[D];中国海洋大学;2005年
中国硕士学位论文全文数据库 前10条
1 崔月盟;基于强化学习和视觉导航的移动机器人控制[D];河北工业大学;2005年
2 柴汇;履带式井下探测机器人底层控制系统研究与设计[D];山东大学;2007年
3 蔚伟;基于行为的移动机器人目标跟踪控制[D];东北电力大学;2007年
4 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
5 宋梅萍;多移动机器人协作任务的分布式决策控制系统[D];哈尔滨工程大学;2003年
6 卢方国;强化学习在个性化信息Agent的应用研究[D];广东工业大学;2004年
7 郭一明;基于强化学习的劣化系统维修策略研究[D];合肥工业大学;2011年
8 钱征;基于强化学习的倒立摆控制研究[D];北京工业大学;2005年
9 王瑞霞;基于强化学习的倒立摆控制[D];北京工业大学;2005年
10 顾鑫;个性化智能信息检索系统研究[D];哈尔滨工程大学;2004年
中国重要报纸全文数据库 前10条
1 孙佳宇;强化学习教育 增强服务意识[N];人民公安报;2009年
2 记者 刘琰;强化学习 增强本领 扎实工作[N];周口日报;2009年
3 首席记者 朱丽华;强化学习 落实责任 确保取得实效[N];盘锦日报;2009年
4 王良豪 记者 刘伟 龙先华;通过创新工作取得活动效果[N];六盘水日报;2008年
5 书分;解放区审计局强化学习抓作风[N];焦作日报;2006年
6 谭育才;强化学习 克己奉公[N];赤峰日报;2008年
7 章斌、特约记者夏吉龙;8710部队 破解难题强化学习教育效果[N];人民武警;2010年
8 通讯员 马全有;强化学习 搞好服务 解放思想[N];甘肃法制报;2007年
9 李北川;强化学习 找准问题 着力整改[N];凉山日报(汉);2007年
10 陈滟澎 张玮(作者单位:市交通局公路处);强化学习提高机关办事效能[N];廊坊日报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978