收藏本站
《北京工业大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于强化学习的倒立摆控制

王瑞霞  
【摘要】:强化学习与监督学习不同之处在于,它不需要教师信号,又不同于仅能完成极其有限功能的无监督学习在学习过程中得不到任何提示,它强调与环境的交互过程中获得评价性反馈信号,利用评价信息来实现行为决策的优化。它采用人类和动物学习中的“行动—评价—改进”机制,与动物学习理论、认知科学、自动学习机等有密切的关系,对于求解无法获得教师信号的复杂优化与决策问题具有更广泛的应用前景,近年来在人工智能研究领域受到了国内外学者越来越多的重视。 鉴于运动平衡控制问题对于机器人主体研究的重要性,我们对运动平衡控制技能的认知问题进行了特别的研究。本课题主要以强化学习为研究对象,在已有强化学习算法的基础上加以改进和提高,提出了自己研究的学习系统,并应用到对倒立摆系统的平衡控制中。目的使智能控制系统具有学习能力,能在系统运行过程中逐步获取新信息,具有类似人类和动物的运动控制技能。其研究成果可广泛应用于机器学习、自动控制、机器人学等诸多领域。论文取得以下主要成果: (1)在表格型Q学习算法的基础上,提出了一种基于神经网络的改进的Q学习方法。该学习方法采用神经网络逼近Q值函数,同时采用一种Boltzman分布的SoftMax行为选择策略。它完成了具有连续状态和离散动作的学习控制任务,一级倒立摆系统的仿真实验,验证了该学习系统的有效性。 (2)在强化学习和动态规划算法的基础上,提出了一种基于内部回归神经网络的强化学习系统(Reinforcement Learning System based on Internally Recurrent Nets, RLSIRN)。RLSIRN 不需要预测和辨识模型,在模型未知和没有先验经验的条件下,能通过自身神经网络的在线学习,有效实现了对具有连续状态和连续行为空间任务的控制。通过一级和二级倒立摆系统的仿真实验验证,结果表明了该学习算法在性能上优于其它同类强化学习算法。同时将RLSIRN应用到一级倒立摆物理实体的控制中,实验取得了较好的控制效果。 (3)在基于RLSIRN 的基础上,改变了评价和动作神经网络的网络结构,同时采用权值的适合度轨迹(Eligibility Traces)来加速学习过程。通过倒立摆系统的仿真实验比较了这两个学习系统。
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP18

【相似文献】
中国期刊全文数据库 前10条
1 ;美用DNA制造出首个人造神经网络[J];硅谷;2011年17期
2 郭庆春;孔令军;史永博;崔文娟;张小永;寇立群;;基于神经网络的入境旅游人数预测[J];价值工程;2011年25期
3 宁彬;吴钊;周健威;;电子政务绩效评价体系研究[J];电脑知识与技术;2011年13期
4 黄莲花;李光明;;神经网络数据融合在车用传感器中的应用[J];装备制造技术;2011年08期
5 张国光;王林山;;一类时滞递归神经网络的鲁棒稳定性[J];滨州学院学报;2011年03期
6 周鸣一;程文清;赵建立;;基于神经网络的程控交换机故障诊断方法研究[J];电脑知识与技术;2011年25期
7 曹婧华;冉彦中;郭金城;;玉米考种系统的设计与实现[J];长春师范学院学报;2011年08期
8 孙海龙;冯超;匙瑞堂;;滚动轴承状态监测[J];工业设计;2011年05期
9 李华;曹晓龙;成江荣;;BP神经网络在软件项目风险评估中的应用[J];计算机仿真;2011年07期
10 杨鹤年;;机电一体化系统中的智能控制技术[J];煤炭技术;2011年07期
中国重要会议论文全文数据库 前10条
1 侯艳芳;冯红梅;;基于神经网络的调制识别算法的研究[A];武汉(南方九省)电工理论学会第22届学术年会、河南省电工技术学会年会论文集[C];2010年
2 沈建荣;杨林泉;陈琳;;神经网络的稳定性判据与区域经济结构调整[A];系统工程与可持续发展战略——中国系统工程学会第十届年会论文集[C];1998年
3 石山铭;李富兰;丁俊丽;;神经网络的知识获取[A];全国青年管理科学与系统科学论文集(第1卷)[C];1991年
4 吴清烈;徐南荣;;基于神经网络的一种多目标决策方法[A];复杂巨系统理论·方法·应用——中国系统工程学会第八届学术年会论文集[C];1994年
5 李晓钟;汪培庄;罗承忠;;神经网络与模糊逻辑[A];中国系统工程学会模糊数学与模糊系统委员会第五届年会论文选集[C];1990年
6 房育栋;余英林;;高阶自组织映射及其学习算法[A];1995年中国控制会议论文集(上)[C];1995年
7 王晓晔;杜朝辉;吕德忠;刘建峰;;神经网络模糊控制在温度控制系统中的应用[A];1997中国控制与决策学术年会论文集[C];1997年
8 金龙;吴建生;;基于遗传算法的神经网络短期气候预测模型(摘要)[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“气候系统与气候变化”分会论文集[C];2003年
9 申伟;张元培;;基于MATLAB的自适应神经网络模糊系统(ANFIS)的应用[A];《制造业自动化与网络化制造》学术交流会论文集[C];2004年
10 田艳兵;;BP算法和PSO算法在神经网络中的研究[A];第二十九届中国控制会议论文集[C];2010年
中国重要报纸全文数据库 前10条
1 记者 刘琰;强化学习 增强本领 扎实工作[N];周口日报;2009年
2 记者 陈青 通讯员 孙国根;揭示神经网络形成新机制[N];文汇报;2011年
3 于翔;数字神经网络中的协同应用[N];网络世界;2009年
4 谭育才;强化学习 克己奉公[N];赤峰日报;2008年
5 健康时报特约记者  张献怀;干细胞移植:修复受损的神经网络[N];健康时报;2006年
6 章斌、特约记者夏吉龙;8710部队 破解难题强化学习教育效果[N];人民武警;2010年
7 邹丽梅 陈耀群;江苏科大神经网络应用研究通过鉴定[N];中国船舶报;2006年
8 记者 孙刚;“神经网络”:打开复杂工艺“黑箱”[N];解放日报;2007年
9 通讯员 马全有;强化学习 搞好服务 解放思想[N];甘肃法制报;2007年
10 李北川;强化学习 找准问题 着力整改[N];凉山日报(汉);2007年
中国博士学位论文全文数据库 前10条
1 徐明亮;强化学习及其应用研究[D];江南大学;2010年
2 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
3 刘志祥;深部开采高阶段尾砂充填体力学与非线性优化设计[D];中南大学;2005年
4 戴雪龙;PET探测器神经网络定位方法研究[D];中国科学技术大学;2006年
5 马戎;智能控制技术在炼钢电弧炉中的应用研究[D];西北工业大学;2006年
6 文敦伟;面向多智能体和神经网络的智能控制研究[D];中南大学;2001年
7 吴大宏;基于遗传算法与神经网络的桥梁结构健康监测系统研究[D];西南交通大学;2003年
8 杜文斌;基于神经网络的冠心病证候诊断标准与药效评价模型研究[D];辽宁中医学院;2004年
9 熊雪梅;参数化模糊遗传神经网络及在植物病害预测的应用[D];南京农业大学;2004年
10 李智;电站锅炉燃烧系统优化运行与应用研究[D];东北大学;2005年
中国硕士学位论文全文数据库 前10条
1 钱征;基于强化学习的倒立摆控制研究[D];北京工业大学;2005年
2 王瑞霞;基于强化学习的倒立摆控制[D];北京工业大学;2005年
3 贺振东;基于改进Q-学习的导航知识获取算法研究[D];东北电力大学;2006年
4 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
5 徐莉;Q-learning研究及其在AUV局部路径规划中的应用[D];哈尔滨工程大学;2004年
6 宋梅萍;多移动机器人协作任务的分布式决策控制系统[D];哈尔滨工程大学;2003年
7 卢方国;强化学习在个性化信息Agent的应用研究[D];广东工业大学;2004年
8 郭一明;基于强化学习的劣化系统维修策略研究[D];合肥工业大学;2011年
9 蔚伟;基于行为的移动机器人目标跟踪控制[D];东北电力大学;2007年
10 廖犬发;一种配电网故障区间诊断系统的研究[D];武汉大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026