收藏本站
《北京交通大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

分层强化学习算法及其应用研究

郑宇  
【摘要】: 强化学习是人工智能和机器学习的一个重要研究领域。强化学习采用试错的方式与环境进行交互,根据环境对动作的评价性反馈信号改进行动方案以适应环境。强化学习具有良好的在线自适应性和对非线性系统的学习能力,因此在人工智能、机器学习和自动控制等领域中得到广泛研究和应用。但是在具有大规模状态空间或连续状态空间的任务中,强化学习也存在着学习效率低,收敛速度慢的问题。二十世纪九十年代提出的分层强化学习是提高强化学习的收敛速度的一种有效方法。而且分层强化学习的子任务策略可以复用,这一特点使得知识传递成为强化学习的当前研究热点。 本文主要研究分层强化学习以及分层强化学习的知识传递方法。研究内容包括两大部分:第一部分主要研究如何改进分层强化学习,加快算法在单个任务中的收敛速度。第二部分主要研究在状态转移概率与系统参数相关的任务中,分层强化学习如何有效获得与参数无关的知识,用知识传递加快算法在多个任务中的收敛速度。本文的主要研究工作和创新性体现在以下三个方面: 第一,提出一种基于稳定状态空间的强化学习算法,通过减少所需探索和学习的状态空间来提高强化学习的收敛速度。为获得系统局部稳定状态空间的最优策略,提出一种状态预评估准则,并且修正算法的报酬信号,保证稳定状态空间的状态能独立收敛。为将探索过程集中于稳定状态空间中,提出基于状态预评估准则和动作连续性准则的探索策略。算法的学习时间仅随局部稳定状态空间的增加呈指数增长,因此有效地缓解了强化学习的维数灾难问题。将算法用于实际系统控制时,本文发现在倒立摆系统控制任务中,强化学习存在极限环问题,算法的控制策略不稳定。提出基于平衡状态的极限环检测方法,解决强化学习的极限环问题。本文算法能获得稳定的控制策略,为分层强化学习进一步获取知识提供了基础。 第二,提出一种基于定性模型的分层Option算法和分步探索策略,解决强化学习探索策略的探索和利用问题。根据系统控制任务的特点,本文定义定性动作,并提出基于状态路径的次优定性动作判断准则。分步探索策略利用该准则首先选择次优定性动作,执行“利用”;然后从次优定性动作中选择元动作探索,在“利用”的基础上执行“探索”。这种分步探索策略不仅用层次化的方法有效地协调算法在全局和局部状态空间之间的探索和学习,而且解决了常用的分时探索策略所存在的问题。算法将知识传递和系统控制任务放在不同层次的子任务中完成,其层次化结构有利于算法抽取不同参数值的系统所具有的共同特征,为实现分层强化学习的知识传递提供了条件。 第三,提出一种基于定性模糊网络的Option算法,解决常用知识传递方法难以用于状态转移概率随系统参数变化的任务中的问题。算法建立系统的定性模型,描述不同参数值的系统所具有的共同特征,将参数相关任务转变为参数无关任务。提出一种定性模糊网络学习基于定性模型的次优策略,抽取次优策略的特征获取与参数无关的知识。在系统参数变化较大的任务中,提出基于状态路径的报酬信号动态调整定性模糊网络,使定性模糊网络经过少量学习和修正后能适用于各种新参数值的同类任务。这种基于定性模型的知识传递方法能有效地描述参数值不同的系统所具有的共同控制规律,解决常用知识传递方法的参数敏感性问题,将常用知识传递方法从参数无关任务扩展到参数相关任务中。
【学位授予单位】:北京交通大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP181

【引证文献】
中国期刊全文数据库 前1条
1 王薇;杨兆升;赵丁选;;有限阶段马尔可夫决策的可变限速控制模型[J];交通运输工程学报;2011年05期
【参考文献】
中国期刊全文数据库 前10条
1 赵志宏;高阳;骆斌;陈世福;;多Agent系统中强化学习的研究现状和发展趋势[J];计算机科学;2004年03期
2 魏英姿;赵明扬;;强化学习算法中启发式回报函数的设计及其收敛性分析[J];计算机科学;2005年03期
3 张汝波,顾国昌,刘照德,王醒策;强化学习理论、算法及应用[J];控制理论与应用;2000年05期
4 文锋;陈宗海;卓睿;周光明;;连续状态自适应离散化基于K-均值聚类的强化学习方法[J];控制与决策;2006年02期
5 晏雄伟,邓志东,孙增圻;竞争式Takagi-Sugeno模糊再励学习[J];自动化学报;2002年06期
6 高阳,陈世福,陆鑫;强化学习研究综述[J];自动化学报;2004年01期
7 蒋国飞,吴沧浦;基于Q学习算法和BP神经网络的倒立摆控制[J];自动化学报;1998年05期
8 苏畅;高阳;陈世福;陈兆乾;;基于SMDP环境的自主生成options算法的研究[J];模式识别与人工智能;2005年06期
9 张双民,石纯一;一种基于特征向量提取的FMDP模型求解方法[J];软件学报;2005年05期
10 张丹红;王勤;;单级倒立摆系统的神经网络逆模控制[J];武汉理工大学学报(信息与管理工程版);2006年05期
【共引文献】
中国期刊全文数据库 前10条
1 胡玉新,李宇成;模糊控制系统的模拟调试[J];北方工业大学学报;1999年03期
2 郑宇;罗四维;吕子昂;;基于模型的层次化强化学习算法[J];北京交通大学学报;2006年05期
3 张冬梅;刘强;;一种基于强化学习的传感器网络应用重构决策方法[J];北京交通大学学报;2010年03期
4 杨萍;毕义明;孙淑玲;;具有自主决策能力的机动单元智能体研究[J];兵工学报;2007年11期
5 胡敏;孔昭君;张纪海;李萍;;一种属性约简方法及其在动员联盟伙伴选择中的应用[J];兵工学报;2009年S1期
6 赵晓华;李振龙;于泉;张杰;;基于切换模型的两交叉口信号灯Q学习协调控制[J];北京工业大学学报;2007年11期
7 马耀飞;龚光红;彭晓源;;基于强化学习的航空兵认知行为模型[J];北京航空航天大学学报;2010年04期
8 程晓北;顾国昌;;多智能体分层强化学习研究进展[J];边疆经济与文化;2007年05期
9 李春贵,吴沧浦,刘永信;一种集成规划的SARSA(λ)强化学习算法[J];北京理工大学学报;2002年03期
10 童亮,陆际联,龚建伟;一种快速强化学习方法研究[J];北京理工大学学报;2005年04期
中国重要会议论文全文数据库 前10条
1 郭成安;李建华;李明伟;;从观测数据学习后验概率函数:一种最佳神经网络模型的设计与分析[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
2 胡光华;;平均准则TD策略迭代算法[A];中国运筹学会第六届学术交流会论文集(上卷)[C];2000年
3 胡光华;殷英;李世云;;即时差分策略迭代算法[A];中国运筹学会第七届学术交流会论文集(下卷)[C];2004年
4 陈焕文;谢丽娟;谢建平;;TD方法与BP神经网络结合构造预测学习系统的算法分析与实现[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
5 ;Research on the Algorithm of Interval Numbers Reinforcement Learning[A];Proceedings of 2006 International Symposium on Distributed Computing and Applications to Business, Engineering and Science[C];2006年
6 王直杰;方建安;邵世煌;;一种增强式学习算法及其在控制中的应用[A];1996中国控制与决策学术年会论文集[C];1996年
7 朴松昊;洪炳熔;褚海涛;;基于BDI的多Agent协作模型研究[A];2003中国控制与决策学术年会论文集[C];2003年
8 刘长有;孙光余;;一种应用Elman型回归网络的Q-学习[A];2004中国控制与决策学术年会论文集[C];2004年
9 唐昊;周雷;陆阳;袁继彬;;SMDP基于TD(λ)学习的统一神经元动态规划优化方法[A];2005中国控制与决策学术年会论文集(上)[C];2005年
10 邹亮;徐建闽;;基于Q-learning的电子地图动态最短路径求解方法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
中国博士学位论文全文数据库 前10条
1 王作为;具有认知能力的智能机器人行为学习方法研究[D];哈尔滨工程大学;2010年
2 宋清昆;自适应结构优化神经网络控制研究[D];哈尔滨理工大学;2009年
3 高延增;超小型水下机器人关键性能提升技术研究[D];华南理工大学;2010年
4 蔡军;家电产品市场营销研究[D];天津大学;2010年
5 李海民;遗传算法性能及其在聚类分析中应用的研究[D];西安电子科技大学;1999年
6 Xu Luomai;[D];广东外语外贸大学;1999年
7 张涛;非线性系统控制策略的研究[D];浙江大学;2001年
8 徐昕;增强学习及其在移动机器人导航与控制中的应用研究[D];国防科学技术大学;2002年
9 佘震宇;复杂经济系统演化建模研究[D];天津大学;2003年
10 郑淑丽;Web信息集成系统及查询优化方法研究[D];合肥工业大学;2003年
中国硕士学位论文全文数据库 前10条
1 沈扬;协商僵局消解优化问题研究[D];郑州大学;2010年
2 姜辉;二级倒立摆控制方法研究[D];哈尔滨工程大学;2010年
3 李志强;Q学习在单路口交通信号控制中的应用研究[D];长沙理工大学;2010年
4 李红涛;智能预测控制算法在倒立摆中的应用研究[D];长沙理工大学;2010年
5 姜新丽;基于强化学习的多机器人协作控制方法研究[D];沈阳理工大学;2010年
6 狄艳坤;神经网络技术在倒立摆系统中的应用研究[D];哈尔滨理工大学;2010年
7 张大伟;密封价格土地拍卖工作流的研究与仿真[D];江南大学;2010年
8 张红;配电网静止同步补偿器控制策略的研究与实现[D];长春工业大学;2010年
9 张金辉;基于少量标记数据约束聚类算法的入侵检测技术研究[D];南京航空航天大学;2009年
10 隋新;基于Agent的在线协作信任与协商优化研究[D];桂林电子科技大学;2010年
【同被引文献】
中国期刊全文数据库 前4条
1 梁新荣,刘智勇,毛宗源;高速公路模糊神经网络限速控制与仿真研究[J];公路交通科技;2005年11期
2 梁新荣;刘智勇;孙德山;毛宗源;;基于支持向量机的高速公路限速控制[J];计算机工程与应用;2005年34期
3 张汝波,顾国昌,刘照德,王醒策;强化学习理论、算法及应用[J];控制理论与应用;2000年05期
4 干宏程,孙立军;高速公路可变限速控制技术研究[J];交通科技;2004年06期
中国博士学位论文全文数据库 前1条
1 黄炳强;强化学习方法及其应用研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前1条
1 陈大山;高速公路主线可变限速控制研究[D];长安大学;2009年
【二级引证文献】
中国期刊全文数据库 前2条
1 任沙沙;庞明宝;王彦虎;陈培;;基于减法聚类的高速公路主线可变速度FNN混沌控制[J];公路交通科技;2012年07期
2 陈大山;孙剑;李克平;;城市快速路速度引导预测控制模型[J];交通运输工程学报;2012年01期
【二级参考文献】
中国期刊全文数据库 前10条
1 路兆梅,匡文生;自组织增强学习模糊神经网控制器的设计[J];东南大学学报;1999年04期
2 杨璐,洪家荣,黄梯云;用加强学习方法解决基于神经网络的时序实时建模问题[J];哈尔滨工业大学学报;1996年04期
3 高阳,周志华,何佳洲,陈世福;基于Markov对策的多Agent强化学习模型及算法研究[J];计算机研究与发展;2000年03期
4 李宁,高阳,陆鑫,陈世福;一种基于强化学习的学习Agent[J];计算机研究与发展;2001年09期
5 张汝波,周宁,顾国昌,张国印;基于强化学习的智能机器人避碰方法研究[J];机器人;1999年03期
6 李春贵,吴沧浦,刘永信;一种基于状态聚类的SARSA(λ)强化学习算法[J];计算机工程;2003年05期
7 蒋国飞,高慧琪,吴沧浦;Q学习算法中网格离散化方法的收敛性分析[J];控制理论与应用;1999年02期
8 任雪梅,高为炳;基于神经网络非线性系统辨识和控制的研究[J];控制理论与应用;1995年02期
9 晏雄伟,邓志东,孙增圻;竞争式Takagi-Sugeno模糊再励学习[J];自动化学报;2002年06期
10 高阳,陈世福,陆鑫;强化学习研究综述[J];自动化学报;2004年01期
【相似文献】
中国期刊全文数据库 前10条
1 卞凯;;基于强化学习的城市交通区域协调控制研究[J];电子技术;2011年08期
2 张文柱;邵丽娜;;异构无线网络中基于强化学习的频谱管理算法[J];西安电子科技大学学报;2011年04期
3 祝宇虹;毛俊鑫;;基于人工情感与Q学习的机器人行为决策[J];机械与电子;2011年07期
4 许培;薛伟;;基于Q-learning的一种多Agent系统结构模型[J];计算机与数字工程;2011年08期
5 王世进;;面向制造任务动态分配的改进合同网机制[J];计算机集成制造系统;2011年06期
6 蔡建羡;阮晓钢;;基于遗传算法的Skinner操作条件反射学习模型[J];系统工程与电子技术;2011年06期
7 夏丽丽;;连续状态-连续行动强化学习[J];电脑知识与技术;2011年19期
8 刘卫红;周义莲;;强化学习方法在Web服务组合中的应用比较研究[J];计算机应用与软件;2011年07期
9 李训亮;门路;周山;;GA-BP神经网络在航空发动机状态监测中的应用研究[J];计测技术;2011年04期
10 樊振宇;;BP神经网络模型与学习算法[J];软件导刊;2011年07期
中国重要会议论文全文数据库 前10条
1 党建武;张彩珍;张全新;;基于神经网络的列车自动运行控制系统研究[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
2 高协平;;关于BP神经网络用于求解二次规划[A];1999中国控制与决策学术年会论文集[C];1999年
3 汪小帆;宋文忠;;高阶连续时间随机神经网络学习算法研究[A];1995年中国控制会议论文集(下)[C];1995年
4 仲自勉;翟军;陈宝树;李连根;;充分利用样本信息的神经元模型[A];1997中国控制与决策学术年会论文集[C];1997年
5 陈春林;董道毅;;量子启发式及量子系统强化学习理论分析[A];2007系统仿真技术及其应用学术会议论文集[C];2007年
6 李海岭;罗先启;葛修润;;自递归神经网络预测结构响应[A];新世纪岩石力学与工程的开拓和发展——中国岩石力学与工程学会第六次学术大会论文集[C];2000年
7 段培永;邵惠鹤;;基于广义基函数的CMAC神经网络的一种改进学习算法[A];1998中国控制与决策学术年会论文集[C];1998年
8 覃祖旭;张洪钺;;基于神经网络的非线性状态观测器研究[A];1995年中国控制会议论文集(上)[C];1995年
9 李鸿儒;邓长辉;顾树生;温馨;;递归神经网络快速学习算法的研究[A];2000中国控制与决策学术年会论文集[C];2000年
10 李明;杨成梧;;PID神经网络的改进PSO学习算法[A];第25届中国控制会议论文集(中册)[C];2006年
中国重要报纸全文数据库 前10条
1 记者 刘琰;强化学习 增强本领 扎实工作[N];周口日报;2009年
2 谭育才;强化学习 克己奉公[N];赤峰日报;2008年
3 章斌、特约记者夏吉龙;8710部队 破解难题强化学习教育效果[N];人民武警;2010年
4 通讯员 马全有;强化学习 搞好服务 解放思想[N];甘肃法制报;2007年
5 陈滟澎 张玮(作者单位:市交通局公路处);强化学习提高机关办事效能[N];廊坊日报;2006年
6 李北川;强化学习 找准问题 着力整改[N];凉山日报(汉);2007年
7 记者 刘莉 实习记者 刘慕欣;兵团党委“保先”教育活动督导组强化学习[N];兵团日报(汉);2005年
8 记者王旭燕、实习生张娜;强化学习抓好落实 确保完成全年目标任务[N];铜川日报;2009年
9 关真付;唐山市文化局强化学习狠抓落实[N];中国文化报;2003年
10 朱玉亭 孙良景 鞠允国;强化学习重结合认真整改谋发展[N];人民公安报;2004年
中国博士学位论文全文数据库 前10条
1 郑宇;分层强化学习算法及其应用研究[D];北京交通大学;2009年
2 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
3 金钊;加速强化学习方法研究[D];云南大学;2010年
4 李誌;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年
5 徐明亮;强化学习及其应用研究[D];江南大学;2010年
6 庄晓东;多移动机器人运动控制策略的强化学习研究[D];中国海洋大学;2005年
7 陈春林;基于强化学习的移动机器人自主学习及导航控制[D];中国科学技术大学;2006年
8 陈圣磊;强化学习及其在MAS协同概念设计中应用的研究[D];南京理工大学;2006年
9 向馗;复杂系统的模式发现[D];浙江大学;2006年
10 杨广全;电梯交通流分析及电梯群控策略研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 尹香花;基于强化学习的多机器人行为式队形控制策略研究[D];吉林大学;2009年
2 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
3 齐心跃;基于强化学习的多机器人任务分配算法研究[D];吉林大学;2008年
4 王瑞霞;基于强化学习的倒立摆控制[D];北京工业大学;2005年
5 王保强;强化学习在机械手路径规划中的应用[D];哈尔滨工程大学;2006年
6 侯志鹏;基于强化学习的模糊神经网络控制研究及应用[D];华北电力大学(北京);2007年
7 周红莉;基于神经网络的移动机器人控制研究[D];兰州理工大学;2006年
8 梅昊;群体机器人系统协同适应性研究[D];吉林大学;2007年
9 薛丽华;多智能体协作学习方法的研究[D];长沙理工大学;2008年
10 刘扬;基于支持向量技术的Agent强化学习研究与应用[D];合肥工业大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026