收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于强化学习的倒立摆控制

王瑞霞  
【摘要】:强化学习与监督学习不同之处在于,它不需要教师信号,又不同于仅能完成极其有限功能的无监督学习在学习过程中得不到任何提示,它强调与环境的交互过程中获得评价性反馈信号,利用评价信息来实现行为决策的优化。它采用人类和动物学习中的“行动—评价—改进”机制,与动物学习理论、认知科学、自动学习机等有密切的关系,对于求解无法获得教师信号的复杂优化与决策问题具有更广泛的应用前景,近年来在人工智能研究领域受到了国内外学者越来越多的重视。 鉴于运动平衡控制问题对于机器人主体研究的重要性,我们对运动平衡控制技能的认知问题进行了特别的研究。本课题主要以强化学习为研究对象,在已有强化学习算法的基础上加以改进和提高,提出了自己研究的学习系统,并应用到对倒立摆系统的平衡控制中。目的使智能控制系统具有学习能力,能在系统运行过程中逐步获取新信息,具有类似人类和动物的运动控制技能。其研究成果可广泛应用于机器学习、自动控制、机器人学等诸多领域。论文取得以下主要成果: (1)在表格型Q学习算法的基础上,提出了一种基于神经网络的改进的Q学习方法。该学习方法采用神经网络逼近Q值函数,同时采用一种Boltzman分布的SoftMax行为选择策略。它完成了具有连续状态和离散动作的学习控制任务,一级倒立摆系统的仿真实验,验证了该学习系统的有效性。 (2)在强化学习和动态规划算法的基础上,提出了一种基于内部回归神经网络的强化学习系统(Reinforcement Learning System based on Internally Recurrent Nets, RLSIRN)。RLSIRN 不需要预测和辨识模型,在模型未知和没有先验经验的条件下,能通过自身神经网络的在线学习,有效实现了对具有连续状态和连续行为空间任务的控制。通过一级和二级倒立摆系统的仿真实验验证,结果表明了该学习算法在性能上优于其它同类强化学习算法。同时将RLSIRN应用到一级倒立摆物理实体的控制中,实验取得了较好的控制效果。 (3)在基于RLSIRN 的基础上,改变了评价和动作神经网络的网络结构,同时采用权值的适合度轨迹(Eligibility Traces)来加速学习过程。通过倒立摆系统的仿真实验比较了这两个学习系统。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 齐国元,陈增强,袁著祉;倒立摆系统自适应高阶微分反馈控制(英文)[J];控制理论与应用;2004年05期
2 李虹,熊诗波,孙志毅;Simulink环境下倒立摆控制系统建模与仿真[J];太原科技大学学报;2005年03期
3 张振兴;张世峰;;基于Lyapunov函数的倒立摆系统设计[J];新技术新工艺;2007年05期
4 孟巧荣;;倒立摆系统虚拟样机仿真[J];机械工程与自动化;2007年05期
5 孙大卫;曾静;张国良;;基于卡尔曼滤波的一级倒立摆LQR控制研究[J];实验技术与管理;2007年02期
6 孙亮;常青;阮晓钢;王嶷然;;基于DSP的倒立摆控制系统设计[J];控制工程;2008年02期
7 孙建涛;陈华;王贞卫;;单级倒立摆反馈线性化控制仿真[J];自动化技术与应用;2008年11期
8 陈进;王冠凌;邢景虎;;单级倒立摆的PID和模糊控制对比研究[J];自动化与仪器仪表;2009年02期
9 曾孟雄;方春娇;赵千惠;;单级旋转倒立摆极点配置与二次型最优控制[J];机电工程;2010年03期
10 李明;郭焕银;;基于MATLAB的倒立摆系统PID控制[J];宿州学院学报;2010年02期
11 郭维;;一阶倒立摆控制器的设计[J];内蒙古科技与经济;2010年08期
12 于铁利;于涛;;基于二次型最优调节器的倒立摆系统[J];电脑知识与技术;2010年24期
13 易杰;谢贤金;;倒立摆系统的最优控制应用研究[J];自动化与仪器仪表;2011年02期
14 翟龙余;;一级倒立摆仿真模型的建立[J];大众科技;2011年08期
15 于丁文,金伟,胡晗,王齐胜;一种倒立摆的控制方案[J];仪器仪表学报;2005年S2期
16 李丽娟;赵英凯;胡盛祥;;两种简化规则的模糊控制系统的分析比较[J];计算机仿真;2006年04期
17 颜昕;赵英凯;窦东阳;;非线性倒立摆的BP神经网络系统辨识[J];微计算机信息;2006年34期
18 王士莹;张峰;陈志勇;赵协广;;直线一级倒立摆的LQR控制器设计[J];机械制造与自动化;2006年06期
19 于姗姗;敖志伟;;基于遗传算法的二级倒立摆模糊控制器研究[J];自动化技术与应用;2006年12期
20 刘春涛;武俊峰;;倒立摆系统的滑模变结构稳定控制[J];应用科技;2007年01期
中国重要会议论文全文数据库 前10条
1 杨亚炜;张明廉;;倒立摆系统的运动模态分析[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
2 李凌;苗鑫;袁德成;;基于神经网络控制的倒立摆系统仿真研究[A];第九届全国信息获取与处理学术会议论文集Ⅰ[C];2011年
3 袁韬;陈皓;兰杰;;倒立摆自抗扰控制算法简易实现[A];2010年西南三省一市自动化与仪器仪表学术年会论文集[C];2010年
4 李爱莲;解韶峰;崔桂梅;;三级倒立摆系统的滑模变结构控制[A];冶金轧制过程自动化技术交流会论文集[C];2005年
5 韩莉;郭瑞鹃;阎晓萍;;基于遗传算法的双模糊控制器设计及应用[A];第三届全国信息获取与处理学术会议论文集[C];2005年
6 王直杰;方建安;邵世煌;;一种增强式学习算法及其在控制中的应用[A];1996中国控制与决策学术年会论文集[C];1996年
7 李洪兴;王加银;;n级倒立摆系统建模[A];中国系统工程学会模糊数学与模糊系统委员会第十一届年会论文选集[C];2002年
8 于丁文;金伟;胡晗;王齐胜;;一种倒立摆的控制方案[A];第七届青年学术会议论文集[C];2005年
9 李晔;;基于遗传算法和神经网络的二级倒立摆控制系统[A];第25届中国控制会议论文集(中册)[C];2006年
10 张环宇;刘长有;;基于Matlab模糊控制工具箱的倒摆系统仿真[A];2002中国控制与决策学术年会论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 张克勤;滑模变结构控制理论及其在倒立摆系统中的应用研究[D];浙江大学;2003年
2 王玉坤;自适应逆控制及其应用的研究[D];哈尔滨工程大学;2006年
3 瞿少成;不确定系统的滑模控制理论及应用研究[D];华中科技大学;2005年
4 谢珺;二进制粒神经网络研究及其在故障诊断中的应用[D];太原理工大学;2009年
5 高兴泉;时域约束T-S模糊系统的控制方法研究[D];吉林大学;2006年
6 王庆凤;网络控制系统的鲁棒控制方法研究及仿真平台搭建[D];吉林大学;2009年
7 郑宇;分层强化学习算法及其应用研究[D];北京交通大学;2009年
8 RAFI YOUSSEF;基于滑模控制方法的故障容错控制系统研究[D];中南大学;2012年
9 罗亮;基于单位分解的非线性不确定系统模糊自适应镇定与跟踪控制分析[D];广东工业大学;2011年
10 张雪峰;线性时变周期系统的能控性、稳定性分析与粗糙控制[D];东北大学;2010年
中国硕士学位论文全文数据库 前10条
1 狄艳坤;神经网络技术在倒立摆系统中的应用研究[D];哈尔滨理工大学;2010年
2 焦灵侠;模糊控制在倒立摆系统中的应用研究[D];西安工业大学;2010年
3 王玉琢;基于模糊神经网络的倒立摆系统控制研究[D];哈尔滨理工大学;2010年
4 汪涛;模糊神经网络控制在单级倒立摆系统中的应用[D];合肥工业大学;2004年
5 赵梦欣;倒立摆的非线性动力学与控制的研究[D];北京工业大学;2003年
6 郭刚;自适应神经模糊控制策略在倒立摆系统中的研究[D];太原理工大学;2004年
7 钱征;基于强化学习的倒立摆控制研究[D];北京工业大学;2005年
8 王瑞霞;基于强化学习的倒立摆控制[D];北京工业大学;2005年
9 黄苑虹;倒立摆系统的稳定控制研究[D];广东工业大学;2002年
10 陶格;基于模糊控制的两级倒立摆的研究[D];北方工业大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978