收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

分层强化学习算法及其应用研究

郑宇  
【摘要】: 强化学习是人工智能和机器学习的一个重要研究领域。强化学习采用试错的方式与环境进行交互,根据环境对动作的评价性反馈信号改进行动方案以适应环境。强化学习具有良好的在线自适应性和对非线性系统的学习能力,因此在人工智能、机器学习和自动控制等领域中得到广泛研究和应用。但是在具有大规模状态空间或连续状态空间的任务中,强化学习也存在着学习效率低,收敛速度慢的问题。二十世纪九十年代提出的分层强化学习是提高强化学习的收敛速度的一种有效方法。而且分层强化学习的子任务策略可以复用,这一特点使得知识传递成为强化学习的当前研究热点。 本文主要研究分层强化学习以及分层强化学习的知识传递方法。研究内容包括两大部分:第一部分主要研究如何改进分层强化学习,加快算法在单个任务中的收敛速度。第二部分主要研究在状态转移概率与系统参数相关的任务中,分层强化学习如何有效获得与参数无关的知识,用知识传递加快算法在多个任务中的收敛速度。本文的主要研究工作和创新性体现在以下三个方面: 第一,提出一种基于稳定状态空间的强化学习算法,通过减少所需探索和学习的状态空间来提高强化学习的收敛速度。为获得系统局部稳定状态空间的最优策略,提出一种状态预评估准则,并且修正算法的报酬信号,保证稳定状态空间的状态能独立收敛。为将探索过程集中于稳定状态空间中,提出基于状态预评估准则和动作连续性准则的探索策略。算法的学习时间仅随局部稳定状态空间的增加呈指数增长,因此有效地缓解了强化学习的维数灾难问题。将算法用于实际系统控制时,本文发现在倒立摆系统控制任务中,强化学习存在极限环问题,算法的控制策略不稳定。提出基于平衡状态的极限环检测方法,解决强化学习的极限环问题。本文算法能获得稳定的控制策略,为分层强化学习进一步获取知识提供了基础。 第二,提出一种基于定性模型的分层Option算法和分步探索策略,解决强化学习探索策略的探索和利用问题。根据系统控制任务的特点,本文定义定性动作,并提出基于状态路径的次优定性动作判断准则。分步探索策略利用该准则首先选择次优定性动作,执行“利用”;然后从次优定性动作中选择元动作探索,在“利用”的基础上执行“探索”。这种分步探索策略不仅用层次化的方法有效地协调算法在全局和局部状态空间之间的探索和学习,而且解决了常用的分时探索策略所存在的问题。算法将知识传递和系统控制任务放在不同层次的子任务中完成,其层次化结构有利于算法抽取不同参数值的系统所具有的共同特征,为实现分层强化学习的知识传递提供了条件。 第三,提出一种基于定性模糊网络的Option算法,解决常用知识传递方法难以用于状态转移概率随系统参数变化的任务中的问题。算法建立系统的定性模型,描述不同参数值的系统所具有的共同特征,将参数相关任务转变为参数无关任务。提出一种定性模糊网络学习基于定性模型的次优策略,抽取次优策略的特征获取与参数无关的知识。在系统参数变化较大的任务中,提出基于状态路径的报酬信号动态调整定性模糊网络,使定性模糊网络经过少量学习和修正后能适用于各种新参数值的同类任务。这种基于定性模型的知识传递方法能有效地描述参数值不同的系统所具有的共同控制规律,解决常用知识传递方法的参数敏感性问题,将常用知识传递方法从参数无关任务扩展到参数相关任务中。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 卞凯;;基于强化学习的城市交通区域协调控制研究[J];电子技术;2011年08期
2 张文柱;邵丽娜;;异构无线网络中基于强化学习的频谱管理算法[J];西安电子科技大学学报;2011年04期
3 祝宇虹;毛俊鑫;;基于人工情感与Q学习的机器人行为决策[J];机械与电子;2011年07期
4 许培;薛伟;;基于Q-learning的一种多Agent系统结构模型[J];计算机与数字工程;2011年08期
5 王世进;;面向制造任务动态分配的改进合同网机制[J];计算机集成制造系统;2011年06期
6 蔡建羡;阮晓钢;;基于遗传算法的Skinner操作条件反射学习模型[J];系统工程与电子技术;2011年06期
7 夏丽丽;;连续状态-连续行动强化学习[J];电脑知识与技术;2011年19期
8 刘卫红;周义莲;;强化学习方法在Web服务组合中的应用比较研究[J];计算机应用与软件;2011年07期
9 李训亮;门路;周山;;GA-BP神经网络在航空发动机状态监测中的应用研究[J];计测技术;2011年04期
10 樊振宇;;BP神经网络模型与学习算法[J];软件导刊;2011年07期
11 王晓敏;刘宏伟;李石妍;;一种基于差分进化的BP神经网络学习算法[J];电子设计工程;2011年15期
12 李昭阁;;强化学习,更新观念,发挥校园网作用[J];学周刊;2011年12期
13 左敏;曾广平;涂序彦;魏伟;;基于平行进化的机器人智能控制研究[J];计算机仿真;2011年08期
14 金向阳;林琳;钟诗胜;丁刚;刘义翔;;航空发动机振动趋势预测的过程神经网络法[J];振动.测试与诊断;2011年03期
15 车少辉;张建国;段爱国;骆昱春;;BP原理及其在林木胸径模拟中的实现[J];东北林业大学学报;2011年08期
16 李彬;李贻斌;;基于ELM学习算法的混沌时间序列预测[J];天津大学学报;2011年08期
17 谷琼;袁磊;熊启军;宁彬;李文新;;基于非均衡数据集的代价敏感学习算法比较研究[J];微电子学与计算机;2011年08期
18 孙明轩;毕宏博;;自适应周期滤波器及其学习算法[J];杭州电子科技大学学报;2011年04期
19 刘欢喜;吴哲;朱俊;李雄;刘允才;;基于子空间学习算法的单模态生物特征识别系统[J];上海交通大学学报;2011年07期
20 刘燕;杨洁;李龙;曲衍鹏;;完全随机输入的模糊δ-规则的有限收敛性[J];高等学校计算数学学报;2011年01期
中国重要会议论文全文数据库 前10条
1 党建武;张彩珍;张全新;;基于神经网络的列车自动运行控制系统研究[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
2 高协平;;关于BP神经网络用于求解二次规划[A];1999中国控制与决策学术年会论文集[C];1999年
3 汪小帆;宋文忠;;高阶连续时间随机神经网络学习算法研究[A];1995年中国控制会议论文集(下)[C];1995年
4 仲自勉;翟军;陈宝树;李连根;;充分利用样本信息的神经元模型[A];1997中国控制与决策学术年会论文集[C];1997年
5 陈春林;董道毅;;量子启发式及量子系统强化学习理论分析[A];2007系统仿真技术及其应用学术会议论文集[C];2007年
6 李海岭;罗先启;葛修润;;自递归神经网络预测结构响应[A];新世纪岩石力学与工程的开拓和发展——中国岩石力学与工程学会第六次学术大会论文集[C];2000年
7 段培永;邵惠鹤;;基于广义基函数的CMAC神经网络的一种改进学习算法[A];1998中国控制与决策学术年会论文集[C];1998年
8 覃祖旭;张洪钺;;基于神经网络的非线性状态观测器研究[A];1995年中国控制会议论文集(上)[C];1995年
9 李鸿儒;邓长辉;顾树生;温馨;;递归神经网络快速学习算法的研究[A];2000中国控制与决策学术年会论文集[C];2000年
10 李明;杨成梧;;PID神经网络的改进PSO学习算法[A];第25届中国控制会议论文集(中册)[C];2006年
中国博士学位论文全文数据库 前10条
1 郑宇;分层强化学习算法及其应用研究[D];北京交通大学;2009年
2 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
3 金钊;加速强化学习方法研究[D];云南大学;2010年
4 李誌;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年
5 徐明亮;强化学习及其应用研究[D];江南大学;2010年
6 庄晓东;多移动机器人运动控制策略的强化学习研究[D];中国海洋大学;2005年
7 陈春林;基于强化学习的移动机器人自主学习及导航控制[D];中国科学技术大学;2006年
8 陈圣磊;强化学习及其在MAS协同概念设计中应用的研究[D];南京理工大学;2006年
9 向馗;复杂系统的模式发现[D];浙江大学;2006年
10 杨广全;电梯交通流分析及电梯群控策略研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 尹香花;基于强化学习的多机器人行为式队形控制策略研究[D];吉林大学;2009年
2 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
3 齐心跃;基于强化学习的多机器人任务分配算法研究[D];吉林大学;2008年
4 王瑞霞;基于强化学习的倒立摆控制[D];北京工业大学;2005年
5 王保强;强化学习在机械手路径规划中的应用[D];哈尔滨工程大学;2006年
6 侯志鹏;基于强化学习的模糊神经网络控制研究及应用[D];华北电力大学(北京);2007年
7 周红莉;基于神经网络的移动机器人控制研究[D];兰州理工大学;2006年
8 梅昊;群体机器人系统协同适应性研究[D];吉林大学;2007年
9 薛丽华;多智能体协作学习方法的研究[D];长沙理工大学;2008年
10 刘扬;基于支持向量技术的Agent强化学习研究与应用[D];合肥工业大学;2007年
中国重要报纸全文数据库 前10条
1 记者 刘琰;强化学习 增强本领 扎实工作[N];周口日报;2009年
2 谭育才;强化学习 克己奉公[N];赤峰日报;2008年
3 章斌、特约记者夏吉龙;8710部队 破解难题强化学习教育效果[N];人民武警;2010年
4 通讯员 马全有;强化学习 搞好服务 解放思想[N];甘肃法制报;2007年
5 陈滟澎 张玮(作者单位:市交通局公路处);强化学习提高机关办事效能[N];廊坊日报;2006年
6 李北川;强化学习 找准问题 着力整改[N];凉山日报(汉);2007年
7 记者 刘莉 实习记者 刘慕欣;兵团党委“保先”教育活动督导组强化学习[N];兵团日报(汉);2005年
8 记者王旭燕、实习生张娜;强化学习抓好落实 确保完成全年目标任务[N];铜川日报;2009年
9 关真付;唐山市文化局强化学习狠抓落实[N];中国文化报;2003年
10 朱玉亭 孙良景 鞠允国;强化学习重结合认真整改谋发展[N];人民公安报;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978