收藏本站
《国防科学技术大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

增强学习及其在移动机器人导航与控制中的应用研究

徐昕  
【摘要】: 增强学习(Reinforcement Learning)又称为强化学习或再励学习,是近年来机器学习和人工智能领域研究的热点之一,并且引起了运筹学、控制理论、机器人学等其它学科研究人员的普遍注意,成为一个多学科交叉的研究方向。增强学习与监督学习的不同之处在于,增强学习不要求给定各种状态下的期望输出即教师信号,而强调在与环境交互中的学习,以极大(或极小)化从环境获得的评价性反馈信号为学习目标。因此增强学习在求解无法获得教师信号的复杂优化与决策问题中具有广泛的应用前景。 在21世纪,移动机器人(Mobile Robots)将在工业、交通、建筑与航天等领域发挥越来越大的作用,同时也对移动机器人的智能导航控制技术提出了更高的要求。如何提高移动机器人的自主导航能力和对环境的适应性,是实现移动机器人在复杂、不确定环境中成功应用的关键问题。应用机器学习特别是增强学习方法实现移动机器人自主导航控制器的优化设计和对未知环境的自适应,是近年来机器人学和人工智能界的一个重要研究课题。 本文在国家自然科学基金项目“增强学习泛化方法研究及其在移动机器人导航中的应用”的资助下,以增强学习及其在移动机器人导航控制中的应用为研究内容,重点研究了增强学习在求解连续状态和行为空间Markov决策问题时的泛化(Generalization)方法,并针对移动机器人在未知环境中的自主导航和路径跟踪控制器的优化设计问题,研究了增强学习在上述领域中的应用。 本文的第一章对增强学习理论、算法和应用研究的发展情况进行了全面深入的综述评论,同时分析了移动机器人导航控制的研究现状和发展趋势。在此基础上,本文的研究工作主要从5个方面展开,即:时域差值学习算法和理论;求解马氏决策问题的梯度增强学习算法;求解马氏决策问题的进化-梯度混合学习算法;增强学习在移动机器人路径跟踪控制器优化中的应用;基于增强学习的移动机器人反应式导航控制。取得的主要研究成果包括: 1.在时域差值学习(Temporal Difference Learning)学习算法和理论方面,首次提出了一种基于线性值函数逼近的多步递推最小二乘TD(λ)(RLS-TD(λ))学习算法,并分析和证明了该算法在求解遍历Markov链学习预测问题中的收敛条件和一致收敛性。RLS-TD(λ)学习算法同时结合了递推最小二乘参数估计方法和适合度轨迹(Eligibility traces)机制,从而能够获得比已有算法更好的收敛性能。 2.在求解离散行为空间Markov决策过程(MDP)最优策略的增强学习算法研究方面,研究了小脑模型关节控制器(CMAC)在MDP行为值函数逼近中的应用,分析了基于CMAC的直接梯度算法对MDP状态空间离散化的特点,研究了两种改进的CMAC编码结构,即:非邻接重叠编码和变尺度编码,以提高直接梯度学习算法的收敛速度和泛化性能。通过倒立摆和自行车平衡控制的学习控制仿真对提出方法的性能进行了研究,结果表明本文提出的改进CMAC编码方法能够有效地改进增强学习算法的收敛速度和泛化性能。 3.首次提出了基于值函数逼近的非平稳策略残差梯度增强学习算法—RGNP算法,并分析了其收敛性和近似最优策略的性能。RGNP算法克服了已有的基于前馈神经网络等非 一 线性值函数逼近器的增强学习算法在求解学习控制问题时没有收敛性保证的缺点,在理论 和应用上具有重要意义。针对Mountain(ar和一类欠驱动机器人系统(称为体操机器人或 Acrobot)的摇起最优控制问题进行了仿真研究,结果表明RGNP算法具有良好的学习效率 和泛化性能,为求解高维连续状态空间的马氏决策问题提供了一类有效方法。 4.在求解同时具有连续状态和行为空间马氏决策问题的增强学习方法研究方面,首 次将时域差值学习的RLS-TD趴)算法与自适应启发评价(AdaPtive Heuristic Critic:AHC)学习 算法结合,提出了一种快速AHC学习(Fast-AHC)算法。该算法通过在评价器(Criti)网络中 采用RLS*D从学习算法,在提高学习预测效率的同时,改进了闭环学习系统的学习控制 性能。以倒立摆学习控制和 Acrobot摇起控制问题为研究对象的仿真对比分析表明,快速 AHC学习算法能够获得优于AHC算法的性能。 5.首次提出了将进化算法与基于神经网络值函数逼近的梯度下降增强学习算法结合 的进化-梯度混合增强学习算法,通过进化算法进行神经网络权值的大范围全局搜索,利用 梯度增强学习算法实现权值的局部搜索,从而有效地实现了对马氏决策过程最优值函数和 最优策略的全局逼近。分别针对离散行为空间和连续行为空间马氏决策问题的情形,提出 了 EARG算法和 E-AHC两种进化-梯度混合学习算法。上述算法克服了基于神经网络值函 数逼近的增强学习梯度算法存在的局部收敛性问题和学习因子优化选择的困难,同时出于 采用了值函数逼近的机制,具有良好的学习效率。 6.首次提出了一种基于增强学习的自适应PID控制器设计方法,并应用于移动机器 人路径跟踪控制器的优化设计中。该控制器利用神经网络增强学习来实现对PID控制增益 的自适应整定,在利用了常规PID控制器的鲁棒性的同时,实现了控制器参数的在线自学 习和优化
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 党建武,张润敏,靳蕃;神经网络学习算法及其在列车控制中的应用[J];兰州铁道学院学报;1994年04期
2 刘云辉;李钟慎;;改进型模糊神经网络模型的构造[J];华侨大学学报(自然科学版);2010年03期
3 何桂清,虞厥邦,庞晓忠;一种新的神经网络均衡器:结构、算法与性能[J];信号处理;1994年02期
4 刘永军,封筠,张国兵,彭育贵;基于人工神经网络的铁路工程技术应用研究[J];计算机工程与应用;2003年14期
5 徐涛,王祁;一种神经网络预测器在传感器故障诊断中的应用[J];传感技术学报;2005年02期
6 何桂清,虞厥邦,庞晓忠;一种新的自适应神经网络均衡器[J];电子科技大学学报;1993年03期
7 何奉道;;一种新的多模式对模糊联想记忆自适应学习规则[J];西南交通大学学报;1993年04期
8 高玉龙;张中兆;;基于改进的自组织映射神经网络的调制方式识别分类器[J];四川大学学报(工程科学版);2006年05期
9 吴雅娟;许少华;;一种模糊计算过程神经元网络及其应用[J];东北林业大学学报;2008年08期
10 郭炳炎;李晓黎;;基于解释学习在汉语句子分析中的应用[J];模式识别与人工智能;1996年02期
11 杨梅娟;陈亚军;;变共轭梯度算法及其在农产品总产量预测中的应用[J];计算机应用;2006年11期
12 李斌;章卫国;;神经网络信息融合技术在故障诊断中的应用[J];传感技术学报;2006年06期
13 李大辉;李长荣;杨阳;;一种改进的瞬时混合语音信号盲分离算法[J];大庆石油学院学报;2007年04期
14 李星毅;包从剑;施化吉;奚春海;;基于加权快速聚类的异常数据挖掘算法[J];计算机工程与应用;2007年35期
15 李晓黎,郭炳炎;分析汉语句子的EBL模型[J];山西大学学报(自然科学版);1995年03期
16 车生兵,傅明;包含奇异类样本的感知机学习规则的单位圆算法[J];贵州工业大学学报(自然科学版);2004年01期
17 吕永浦;冯大政;;新IF模型及其学习规则研究[J];系统工程与电子技术;2006年04期
18 王小雄;闫小华;姚永锋;白建军;;基于改进BP算法神经网络的路况评价模型研究[J];重庆交通大学学报(自然科学版);2007年04期
19 刘 勇,曹先彬,王煦法;基于GP的神经网络学习规则的发现[J];计算机工程与应用;2000年11期
20 王科俊,李殿璞,李国斌;一种新的神经元统一模型[J];哈尔滨工程大学学报;1996年03期
中国重要会议论文全文数据库 前10条
1 谌海霞;;ART2网络的学习速率调整及其影响[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
2 文科星;石红瑞;郑威;;单神经元自适应PID在温度控制中的应用[A];中国计量协会冶金分会2008年会论文集[C];2008年
3 文科星;石红瑞;郑威;;单神经元自适应PID在温度控制中的应用[A];2008全国第十三届自动化应用技术学术交流会论文集[C];2008年
4 袁军;黄心汉;;自适应神经元控制直流PWM调速系统的研究[A];1993中国控制与决策学术年会论文集[C];1993年
5 诸勇;钱积新;;基于鲁棒稳定高阶动态神经网络的非线性系统的辨识[A];1998年中国控制会议论文集[C];1998年
6 王宁;涂健;陈锦江;;一种基于神经网络的学习控制系统及其应用[A];第三届全国控制与决策系统学术会议论文集[C];1991年
7 周彦;何小阳;;时变大滞后过程的单神经元内模控制[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
8 苏海滨;卞晶晶;王继东;;基于模糊径向基函数神经网络地图匹配算法的研究[A];第二十九届中国控制会议论文集[C];2010年
9 王晓东;陈伯时;夏承光;;直流传动系统中单神经元自适应智能控制的实现[A];1996年中国智能自动化学术会议论文集(上册)[C];1996年
10 吴受章;宋辛科;;BP网络与指数型非线性逼近[A];1994中国控制与决策学术年会论文集[C];1994年
中国重要报纸全文数据库 前10条
1 记者 陈兆豪 李兆方;纺织业学习规则迎接“后配额时代”[N];国际商报;2004年
2 华工;改变观念学习规则 避免参展被逐事件再次发生[N];中国贸易报;2005年
3 《中国经营报》副总编缉 张曙光;不能匍匐在规则之下[N];中国经营报;2007年
4 ;认识幼儿园的“级”和“类”[N];中国教育资讯报;2002年
5 游石;机构普遍看好股指期货[N];证券时报;2007年
6 张毅 雷敏;要充分利用世贸规则保护自己[N];物资信息报;2005年
7 一德期货 邱菡仪;与投资者零距离[N];期货日报;2007年
8 本报通讯员 杨惠媛;用科学理论武装头脑指导实践推动工作[N];大理日报(汉);2007年
9 记者 陈伟蕾 通讯员 叶奕莉;中国鞋出口须转向“质量品牌型”[N];民营经济报;2005年
10 曾昭俊;未雨绸缪方为上策[N];中国企业报;2006年
中国博士学位论文全文数据库 前10条
1 樊建聪;分布估计学习算法研究[D];山东科技大学;2010年
2 段震;基于构造性学习的覆盖算法的发展及应用[D];安徽大学;2010年
3 吴桂坤;延迟反馈神经网络和两层反馈神经网络的研究[D];厦门大学;2008年
4 诸勇;正交回归神经网络及其在控制系统中的应用[D];浙江大学;1998年
5 金涛;非对称神经网在模式识别中的应用[D];兰州大学;2006年
6 韦巍;学习控制及其在机器人控制中的应用[D];浙江大学;1994年
7 石振国;资源网络的精化学习及应用研究[D];上海大学;2011年
8 于龙;模糊系统辨识及其在机车粘着中的应用[D];西南交通大学;2008年
9 魏强;纳米定位微位移工作台的控制技术研究[D];山东大学;2006年
10 张锦;嗅觉神经系统仿生模型及其应用研究[D];浙江大学;2007年
中国硕士学位论文全文数据库 前10条
1 王颖;网络学习激励机制的分析与研究[D];首都师范大学;2014年
2 黄凯南;个体偏好稳定与变化的关系分析[D];南京理工大学;2004年
3 姜阳;基于数字信号处理器的神经元遗传算法自适应PID控制[D];广西大学;2002年
4 宋晶;基于不完全微分的单神经元自适应PID控制器研究与应用[D];华侨大学;2006年
5 艾峥;基于最大Lyapunov指数预测的BP神经网络权值学习规则的研究[D];武汉科技大学;2006年
6 李新星;六子棋中基于BP-TD学习的局面估值方法研究[D];东北大学;2009年
7 梅海涛;用于安全防范的无线多媒体监控系统设计与实现[D];山东大学;2008年
8 高斐;一年级小学生学习习惯养成的个案研究[D];浙江师范大学;2013年
9 王立龙;基于神经网络的转炉冶炼静态控制模型[D];河北理工学院;2003年
10 陈曼;基于单神经元PID的永磁同步电动机速度控制器设计[D];合肥工业大学;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978