收藏本站
《中国矿业大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于谱图理论的强化学习研究

朱美强  
【摘要】:作为一类解决序贯优化决策问题的有效方法,强化学习应用于大规模或连续状态空间问题时会出现维数灾难。如何解决维数灾难,提高算法效率是现阶段强化学习面临的主要问题。谱图理论是一类可以揭示高维数据空间的内在拓扑结构的数学工具,近年来在复杂网络、图像视觉和流形学习等领域被广泛使用并取得巨大成功,将其引入强化学习中有重要的研究价值。 为了提高强化学习算法的效率,本文主要从分层强化学习、基于流形距离的启发式强化学习和迁移强化学习三个方面研究了谱图理论在强化学习中的应用方法。在分层强化学习方面,本文借用多路谱聚类的相关理论与方法,提出了一种新的子任务策略求取方法和两种改进的任务分解方法;在启发式强化学习方面,针对基于目标位置的任务,本文建立了基于距离度量学习的启发式强化学习框架。在此框架下,将计算效率最高的拉普拉斯特征映射法应用于启发式回报函数设计、启发式策略选择和启发式Dyna规划三个方面,提出了三类启发式强化学习算法;在迁移强化学习方面,针对基于谱图理论的基函数迁移方法的不足,提出了一种基函数与子任务最优策略相结合的混合迁移方法。本文取得的主要研究成果如下: 1.分层强化学习中的Option方法一般分为任务分解和子任务策略求取两部分。在任务分解部分,基于谱图分割的Option方法普遍存在需要手工确定子任务数目和应用范围有限的缺点。针对此问题,本文分析了其原因,并引入多路谱聚类的相关思想和特征值差法,提出了两种改进的Option自动分解算法。在子任务策略求取部分,现有的方法一般将其作为一个新的强化学习问题来处理,本文利用拉普拉斯特征映射能保持状态空间局部拓扑结构的特点,提出一种新的策略求取方法——虚拟值函数法。 2.在基于目标位置的学习任务中,广义距离常作为启发式函数用于启发式回报函数设计、启发式动作选择和启发式Dyna规划中。如何根据任务的结构和性质定义广义距离是这类方法成功与否的关键。对于值函数在欧氏空间内不连续,但在流形上连续的情况,本文建立了基于距离度量学习的启发式强化学习框架。 3.启发式回报函数的设计方法一般分为广义距离法和抽象模型法两类。对于广义距离法,在基于距离度量学习的启发式强化学习框架下,本文使用最简单的拉普拉斯特征映射法,提出了一种新的启发式回报函数设计方法。对于抽象模型法,本文将前述改进的Option生成算法用于抽象模型的产生中,提出了两种能自动实现子任务内势函数分解的启发式回报函数设计方法。 4.仍然使用基于距离度量学习的启发式强化学习框架,针对强化学习的策略选择和Dyna规划,提出了一种新的启发式动作选择机制和一种改进的Dyna-Q规划算法。所提的两种方法都可以提高Q学习的初始学习性能。 5.在状态空间比例放大的迁移任务中,基于谱图理论的原型值函数方法只能有效迁移较小特征值对应的基函数,用于目标任务的值函数逼近时会使部分状态的值函数出现错误。本文分析了值函数逼近错误的原因,并提出一种基函数与子任务最优策略相结合的混合迁移方法。所提的迁移方法能直接确定目标任务部分状态空间的最优策略,减少了值函数逼近所需要的最少基函数数目,降低了策略迭代次数,适合状态空间具有明显层次结构的迁移任务。 全文的主要工作是围绕着强化学习的模型、立即回报、值函数和策略四个要素,提出了几种基于谱图理论的强化学习算法,并分析了它们的适用范围和计算复杂度。仿真研究的实验结果验证了所提算法的有效性和适用性。
【学位授予单位】:中国矿业大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP181

知网文化
【参考文献】
中国期刊全文数据库 前10条
1 高阳;胡景凯;王本年;王冬黎;;基于CMAC网络强化学习的电梯群控调度[J];电子学报;2007年02期
2 王皓;高阳;陈兴国;;强化学习中的迁移:方法和进展[J];电子学报;2008年S1期
3 王雪松;张依阳;程玉虎;;基于高斯过程分类器的连续空间强化学习[J];电子学报;2009年06期
4 孔万增;孙志海;杨灿;戴国骏;孙昌思核;;基于本征间隙与正交特征向量的自动谱聚类[J];电子学报;2010年08期
5 王本年;高阳;陈兆乾;谢俊元;陈世福;;面向Option的k-聚类Subgoal发现算法[J];计算机研究与发展;2006年05期
6 罗四维;赵连伟;;基于谱图理论的流形学习算法[J];计算机研究与发展;2006年07期
7 林芬;石川;罗杰文;史忠植;;基于偏向信息学习的双层强化学习算法[J];计算机研究与发展;2008年09期
8 刘全;闫其粹;伏玉琛;胡道京;龚声蓉;;一种基于启发式奖赏函数的分层强化学习方法[J];计算机研究与发展;2011年12期
9 张文志,吕恬生;强化学习理论在机器人应用中的几个关键问题探讨[J];计算机工程与应用;2004年04期
10 赵志宏;高阳;骆斌;陈世福;;多Agent系统中强化学习的研究现状和发展趋势[J];计算机科学;2004年03期
中国博士学位论文全文数据库 前8条
1 雷迎科;流形学习算法及其应用研究[D];中国科学技术大学;2011年
2 徐昕;增强学习及其在移动机器人导航与控制中的应用研究[D];国防科学技术大学;2002年
3 沈晶;分层强化学习方法研究[D];哈尔滨工程大学;2006年
4 王学宁;策略梯度增强学习的理论、算法及应用研究[D];国防科学技术大学;2006年
5 杜小勤;强化学习中状态抽象技术的研究[D];华中科技大学;2007年
6 刘翠响;人脸识别中高维数据特征分析[D];河北工业大学;2008年
7 曾宪华;流形学习的谱方法相关问题研究[D];北京交通大学;2009年
8 金钊;加速强化学习方法研究[D];云南大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
2 胡玉新,李宇成;模糊控制系统的模拟调试[J];北方工业大学学报;1999年03期
3 钟尚平;林静;;一个基于TSVM的GIF图像通用隐写检测方法[J];北京交通大学学报;2009年02期
4 秦洋;王立宏;武栓虎;宋宜斌;;基于拉普拉斯矩阵的DNA序列集相似性分析[J];北京交通大学学报;2009年06期
5 张冬梅;刘强;;一种基于强化学习的传感器网络应用重构决策方法[J];北京交通大学学报;2010年03期
6 张洪宇;张鹏程;刘春明;宋金泽;;基于动力学模型的轮式移动机器人运动控制[J];兵工自动化;2008年11期
7 杨博;王向华;邵利平;覃征;于维虎;;基于群集智能的传感器管理方法研究[J];兵工学报;2012年02期
8 赵晓华;李振龙;于泉;张杰;;基于切换模型的两交叉口信号灯Q学习协调控制[J];北京工业大学学报;2007年11期
9 阮晓钢;郜园园;宋洪军;;基于操作条件反射自动机的仿生自主学习方法[J];北京工业大学学报;2011年11期
10 任红格;阮晓钢;;基于Boltzamnn机的机器人自主学习算法[J];北京工业大学学报;2012年01期
中国重要会议论文全文数据库 前10条
1 丁丽洁;唐昊;周雷;;基于对等SAP的Q学习在机器人作业分配中的应用[A];第二十六届中国控制会议论文集[C];2007年
2 刘智勇;马凤伟;;城市交通信号的在线强化学习控制[A];第二十六届中国控制会议论文集[C];2007年
3 ;Reinforcement Strategy Using Quantum Amplitude Amplification for Robot Learning[A];第二十六届中国控制会议论文集[C];2007年
4 ;An Event-Driven Dynamic Load Balancing Strategy for Streaming Media Clustered Server Systems[A];第二十七届中国控制会议论文集[C];2008年
5 ;On Solving Optimal Policies for Event-based Dynamic Programming[A];第二十九届中国控制会议论文集[C];2010年
6 张晓艳;唐吴;韩江洪;周雷;;多Agent系统连续时间Option算法[A];第二十九届中国控制会议论文集[C];2010年
7 ;Sample-Based Potentials Estimation for the Optimal Control of Stochastic System[A];中国自动化学会控制理论专业委员会D卷[C];2011年
8 蒋全胜;贾民平;胡建中;许飞云;;一种基于流形学习的故障模式识别方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
9 傅向华;王志强;赵良辉;杜文峰;;基于拉普拉斯流形正则化的半监督图像检索[A];第四届和谐人机环境联合学术会议论文集[C];2008年
10 徐云峰;;一种新的取证计算模型的研究与实现[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
2 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
3 王龙金;零/低航速减摇鳍升力模型及系统控制策略研究[D];哈尔滨工程大学;2009年
4 宋军;水交换模型的理论方法及应用研究[D];中国海洋大学;2010年
5 张琦;多核系统中的程序性能优化研究[D];中国科学技术大学;2010年
6 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
7 杨树忠;复杂网络中的社团检测问题研究[D];北京交通大学;2009年
8 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
9 杨国鹏;基于机器学习方法的高光谱影像分类研究[D];解放军信息工程大学;2010年
10 皋军;智能识别中的降维新方法及其应用研究[D];江南大学;2010年
中国硕士学位论文全文数据库 前10条
1 马冉冉;集成学习算法研究[D];山东科技大学;2010年
2 沈扬;协商僵局消解优化问题研究[D];郑州大学;2010年
3 左国辉;基于子空间方法的人脸识别技术研究[D];哈尔滨工程大学;2009年
4 姜辉;二级倒立摆控制方法研究[D];哈尔滨工程大学;2010年
5 杨欣颖;潜器光视觉目标识别技术的研究与设计[D];哈尔滨工程大学;2010年
6 李静伟;基于共享近邻的自适应谱聚类算法[D];大连理工大学;2010年
7 蒋延生;基于图的适应性相似度估算的半监督学习[D];大连理工大学;2010年
8 李志强;Q学习在单路口交通信号控制中的应用研究[D];长沙理工大学;2010年
9 李红涛;智能预测控制算法在倒立摆中的应用研究[D];长沙理工大学;2010年
10 孙玉侠;数据挖掘中的谱聚类算法研究[D];中国海洋大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 沈宇超,沈树群,樊荣,武戎,徐大雄;一种用于多目标实时识别的防碰撞算法——射频识别系统的关键技术[J];北京邮电大学学报;1999年01期
2 王帅;;基于强化学习算法的井下移动机器人路径规划[J];电气技术;2008年08期
3 杨艳丽,曹广忠;CMAC的无交叠感受域变分辨率学习方法[J];电子学报;2002年S1期
4 邵超;黄厚宽;赵连伟;;P-ISOMAP:一种新的对邻域大小不甚敏感的数据可视化算法[J];电子学报;2006年08期
5 秦斌;吴敏;王欣;阳春华;;基于多智能体强化学习的焦炉集气管压力多级协调控制[J];电子学报;2006年10期
6 高阳;胡景凯;王本年;王冬黎;;基于CMAC网络强化学习的电梯群控调度[J];电子学报;2007年02期
7 王玲;薄列峰;焦李成;;密度敏感的谱聚类[J];电子学报;2007年08期
8 王皓;高阳;陈兴国;;强化学习中的迁移:方法和进展[J];电子学报;2008年S1期
9 王娜;李霞;;基于监督信息特性的主动半监督谱聚类算法[J];电子学报;2010年01期
10 周一鸣;牟茁;;马尔科夫过程模型在股指预测中的应用[J];消费导刊;2009年04期
中国博士学位论文全文数据库 前3条
1 徐昕;增强学习及其在移动机器人导航与控制中的应用研究[D];国防科学技术大学;2002年
2 王醒策;基于强化学习和群集智能方法的多机器人协作协调研究[D];哈尔滨工程大学;2005年
3 沈晶;分层强化学习方法研究[D];哈尔滨工程大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 殷翔,黄展翔;强化学习在仿真机器人足球踢球动作中的应用[J];苏州大学学报(工科版);2002年04期
2 李春贵,刘永信;一种有限时段Markov决策过程的强化学习算法[J];广西工学院学报;2003年01期
3 刘菲;曾广周;;基于强化学习的多移动Agent学习算法[J];计算机工程与应用;2006年05期
4 宋一然;;基于强化学习的多机器人路径规划方法[J];莆田学院学报;2006年02期
5 何锫;王峰;肖淑苹;;基于异联想记忆Hopfield网络的强化学习[J];微计算机信息;2008年26期
6 张汝波,顾国昌,刘照德,王醒策;强化学习理论、算法及应用[J];控制理论与应用;2000年05期
7 李宁,高阳,陆鑫,陈世福;一种基于强化学习的学习Agent[J];计算机研究与发展;2001年09期
8 张荣,陈卫东;基于强化学习的倒立摆起摆与平衡全过程控制[J];系统工程与电子技术;2004年01期
9 张化祥;黄上腾;;基于强化学习与对策的多代理协同技术[J];计算机科学;2004年08期
10 王本年;高阳;陈兆乾;谢俊元;陈世福;;RLGA:一种基于强化学习机制的遗传算法[J];电子学报;2006年05期
中国重要会议论文全文数据库 前10条
1 文锋;陈宗海;陈春林;;基于RLS-TD和值梯度的强化学习方法用于LQR控制问题[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
2 卓睿;陈宗海;陈春林;;强化学习在移动机器人导航上的应用[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
3 张伟;李建更;张家旺;;多智能体强化学习在机器人足球比赛中的应用[A];2005年中国智能自动化会议论文集[C];2005年
4 张家旺;韩光胜;张伟;;基于ASPL模型的多智能体强化学习在RoboCup中的应用[A];2005中国机器人大赛论文集[C];2005年
5 敬斌;田野;;Robocup中的传球策略[A];2005中国机器人大赛论文集[C];2005年
6 陈春林;陈宗海;卓睿;;分层式强化学习的定性空间表达[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
7 涂自然;王维;梁以业;禹建丽;;基于强化学习的自适应变步长机器人路径规划算法[A];2003年中国智能自动化会议论文集(上册)[C];2003年
8 叶道年;陈卫东;;机器人团队协作的强化学习[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
9 方宝富;王浩;姚宏亮;杨静;周晋;;Q学习在机器人足球中的应用[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
10 潘凌寒;程显毅;;RoboCup仿真比赛中机器学习问题的研究[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 孙佳宇;强化学习教育 增强服务意识[N];人民公安报;2009年
2 记者 刘琰;强化学习 增强本领 扎实工作[N];周口日报;2009年
3 首席记者 朱丽华;强化学习 落实责任 确保取得实效[N];盘锦日报;2009年
4 王良豪 记者 刘伟 龙先华;通过创新工作取得活动效果[N];六盘水日报;2008年
5 书分;解放区审计局强化学习抓作风[N];焦作日报;2006年
6 谭育才;强化学习 克己奉公[N];赤峰日报;2008年
7 章斌、特约记者夏吉龙;8710部队 破解难题强化学习教育效果[N];人民武警;2010年
8 通讯员 马全有;强化学习 搞好服务 解放思想[N];甘肃法制报;2007年
9 李北川;强化学习 找准问题 着力整改[N];凉山日报(汉);2007年
10 陈滟澎 张玮(作者单位:市交通局公路处);强化学习提高机关办事效能[N];廊坊日报;2006年
中国博士学位论文全文数据库 前10条
1 朱美强;基于谱图理论的强化学习研究[D];中国矿业大学;2012年
2 金钊;加速强化学习方法研究[D];云南大学;2010年
3 徐明亮;强化学习及其应用研究[D];江南大学;2010年
4 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
5 仲宇;分布式强化学习理论及在多机器人中的应用研究[D];哈尔滨工程大学;2003年
6 李誌;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年
7 郭庆;多Agent系统协商中若干关键技术的研究[D];浙江大学;2003年
8 戴朝晖;基于混合抽象机制的多智能体系统动态分层强化学习算法研究[D];中南大学;2012年
9 杨东勇;多机器人协作的学习与进化方法[D];浙江大学;2005年
10 庄晓东;多移动机器人运动控制策略的强化学习研究[D];中国海洋大学;2005年
中国硕士学位论文全文数据库 前10条
1 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
2 宋梅萍;多移动机器人协作任务的分布式决策控制系统[D];哈尔滨工程大学;2003年
3 卢方国;强化学习在个性化信息Agent的应用研究[D];广东工业大学;2004年
4 郭一明;基于强化学习的劣化系统维修策略研究[D];合肥工业大学;2011年
5 钱征;基于强化学习的倒立摆控制研究[D];北京工业大学;2005年
6 王瑞霞;基于强化学习的倒立摆控制[D];北京工业大学;2005年
7 顾鑫;个性化智能信息检索系统研究[D];哈尔滨工程大学;2004年
8 张驰;基于ROBOCUP的多智能体系统设计与实现[D];北京工业大学;2004年
9 袁继彬;大规模Markov系统基于性能势学习的NDP优化方法研究[D];合肥工业大学;2005年
10 汪向利;基于多Agent的生产计划与调度系统研究与开发[D];浙江工业大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026