收藏本站
《合肥工业大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

径向基函数网络和实例学习在强化学习中的应用

林联明  
【摘要】:人工智能一个重要的目标是设计一个智能体使它能够在复杂环境中自主地 完成给定的任务,机器学习是人工智能学科的重要组成部分。强化学习 RL(Reinforcement Learning)算法作为机器学习一个新的分支,由于其本身的特 点,很适合用来设计Agent的学习。其思想是根据环境的惩奖信号来选择策略, 即Agent通过与环境不断地进行相互作用来达到获取知识和适应环境的能力。 不同于有导师学习,它不需要给出输入-输出对,只是利用环境的惩奖信号来改 善自己的行为。近些年来对于强化学习的研究工作越来越多,强化学习被认为 是设计智能主体核心技术之一。研究者青睐强化学习主要是它的一般性,仅仅 只需要给定目标,智能主体会通过与环境的不断交互来达到。传统的强化学习 算法仅限于离散有限的输入空间,运用查表法来存储值函数,然而实际系统的状 态或决策空间大多数是连续的,因此不可能用查表法来表示值函数。一个比较 好的方法是利用近似器逼近值函数,但是由于可能发散逼近并不是简单地用近 似器替换表结构。很多的研究显示,利用局部逼近的技术能够比较好的逼近值 函数,本文主要利用局部逼近来表示值函数,主要工作有: (1) 利用径向基函数网络来拟合值函数,解决了连续状态空间的泛化表 示。 (2) 利用实例学习表示值函数,提高了系统性能。 (3) 对上述两种方法进行了实验,显示出较好的结果。
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP18

手机知网App
【共引文献】
中国期刊全文数据库 前10条
1 胡玉新,李宇成;模糊控制系统的模拟调试[J];北方工业大学学报;1999年03期
2 郭钊侠,方建安,苗清影;倒立摆系统及其智能控制研究[J];东华大学学报(自然科学版);2003年02期
3 黄苑虹,梁慧冰;从倒立摆装置的控制策略看控制理论的发展和应用[J];广东工业大学学报;2001年03期
4 李春贵,刘永信;一种有限时段Markov决策过程的强化学习算法[J];广西工学院学报;2003年01期
5 张汝波,施洋;基于模糊Q学习的多机器人系统研究[J];哈尔滨工程大学学报;2005年04期
6 陈焕文,谢丽娟,谢建平;一类值函数激励学习的遗忘算法[J];计算机研究与发展;2001年04期
7 李宁,高阳,陆鑫,陈世福;一种基于强化学习的学习Agent[J];计算机研究与发展;2001年09期
8 王醒策,张汝波,顾国昌;多机器人动态编队的强化学习算法研究[J];计算机研究与发展;2003年10期
9 祖丽楠,李江抒,田彦涛;旋转倒立摆平衡姿态多模型模糊控制算法[J];吉林大学学报(工学版);2003年04期
10 沈晶;顾国昌;刘海波;;未知动态环境中基于分层强化学习的移动机器人路径规划[J];机器人;2006年05期
中国重要会议论文全文数据库 前10条
1 林岳松;王俊宏;薛安克;;二级倒立摆的简易多PD控制算法[A];第二十一届中国控制会议论文集[C];2002年
2 晏雄伟;邓志东;孙增圻;;模糊优胜再励学习[A];2001年中国智能自动化会议论文集(上册)[C];2001年
3 郭毓;王强;刘萍;;基于能量和ANFIS的倒立摆起摆和稳摆控制[A];2007年中国智能自动化会议论文集[C];2007年
4 胡光华;;平均准则TD策略迭代算法[A];中国运筹学会第六届学术交流会论文集(上卷)[C];2000年
5 胡光华;殷英;李世云;;即时差分策略迭代算法[A];中国运筹学会第七届学术交流会论文集(下卷)[C];2004年
6 王直杰;方建安;邵世煌;;一种增强式学习算法及其在控制中的应用[A];1996中国控制与决策学术年会论文集[C];1996年
7 朴松昊;洪炳熔;褚海涛;;基于BDI的多Agent协作模型研究[A];2003中国控制与决策学术年会论文集[C];2003年
8 刘长有;孙光余;;一种应用Elman型回归网络的Q-学习[A];2004中国控制与决策学术年会论文集[C];2004年
9 邹亮;徐建闽;;基于Q-learning的电子地图动态最短路径求解方法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
10 谢志华;郑应平;;基于再励学习的排队系统优化控制[A];1995年中国控制会议论文集(下)[C];1995年
中国博士学位论文全文数据库 前10条
1 钟碧良;机器人足球系统的研究与实现[D];广东工业大学;2003年
2 张华;基于动觉智能图式的多级摆系统仿人智能运动控制[D];重庆大学;2006年
3 李明;基于动态神经网络的非线性自适应逆控制研究[D];南京理工大学;2007年
4 张涛;非线性系统控制策略的研究[D];浙江大学;2001年
5 徐昕;增强学习及其在移动机器人导航与控制中的应用研究[D];国防科学技术大学;2002年
6 佘震宇;复杂经济系统演化建模研究[D];天津大学;2003年
7 郑淑丽;Web信息集成系统及查询优化方法研究[D];合肥工业大学;2003年
8 李四明;基于智能Agent的网上农业信息挖掘研究[D];中国农业大学;2003年
9 方远;复合代理体及其在企业管理信息系统中的应用研究[D];东华大学;2001年
10 邹国平;基于智能的高速公路交通控制与管理系统研究[D];长安大学;2002年
中国硕士学位论文全文数据库 前10条
1 吕开东;倒立摆系统设计及神经元控制研究[D];哈尔滨工程大学;2006年
2 张玉梅;一种结构可生长的认知模型及其在运动平衡控制中的应用[D];北京工业大学;2005年
3 阎岭;非最小相位自适应逆控制及其DSP实现[D];福州大学;2002年
4 黄苑虹;倒立摆系统的稳定控制研究[D];广东工业大学;2002年
5 饶崇林;倒立摆的H_∞控制方法研究及应用[D];武汉理工大学;2003年
6 顼晓娟;基于粗糙集、思维进化的模糊控制策略在倒立摆系统中的研究[D];太原理工大学;2003年
7 张环宇;非线性系统模糊建模及其在倒摆系统中的应用[D];沈阳工业大学;2002年
8 卢方国;强化学习在个性化信息Agent的应用研究[D];广东工业大学;2004年
9 陈华龙;基于DSP的倒立摆控制系统研究[D];广东工业大学;2004年
10 孟巧荣;倒立摆虚拟样机及控制系统的研究[D];太原理工大学;2004年
【同被引文献】
中国期刊全文数据库 前4条
1 胡伟,王福忠,余发山,闫有运;工业锅炉汽包水位模糊PID控制策略的研究[J];焦作工学院学报(自然科学版);2001年04期
2 任向民;工业锅炉控制系统的设计与实现[J];中国科技信息;2005年12期
3 王洪国;自动控制技术在工业锅炉上的应用[J];云南冶金;1999年03期
4 张占龙,文代刚;工业锅炉计算机网络化自动监测与控制技术[J];渝州大学学报(自然科学版);1999年02期
中国硕士学位论文全文数据库 前2条
1 梁红兵;工业煤粉锅炉燃烧的智能集成控制系统[D];中南大学;2003年
2 史学良;煤粉锅炉燃烧监控系统研究与实现[D];昆明理工大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 徐心和,么健石;有关行为主义人工智能研究综述[J];控制与决策;2004年03期
2 胡友民,杜润生,杨叔子;制造系统数据采集技术研究[J];制造业自动化;2002年03期
3 夏丽丽;;连续状态-连续行动强化学习[J];电脑知识与技术;2011年19期
4 沈军营,傅谦,严隽琪,马登哲,金烨;敏捷产品开发的研究[J];计算机工程与应用;2000年01期
5 吴明;;智能主体的认知模型及其理论探讨[J];现代商贸工业;2010年12期
6 蓝雯飞;陆际光;;智能主体在构件库系统中的应用研究[J];计算机工程与设计;2007年17期
7 曹鸿强;基于多经济智能主体的计算网格资源管理[J];计算机工程与科学;2002年01期
8 殷翔,黄展翔;强化学习在仿真机器人足球踢球动作中的应用[J];苏州大学学报(工科版);2002年04期
9 李春贵,刘永信;一种有限时段Markov决策过程的强化学习算法[J];广西工学院学报;2003年01期
10 刘菲;曾广周;;基于强化学习的多移动Agent学习算法[J];计算机工程与应用;2006年05期
中国重要会议论文全文数据库 前10条
1 蔡忠亮;毋河海;杜清运;任福;;基于智能主体(Agent)的多尺度地理空间数据支撑模型研究[A];认识地理过程 关注人类家园——中国地理学会2003年学术年会文集[C];2003年
2 文锋;陈宗海;陈春林;;基于RLS-TD和值梯度的强化学习方法用于LQR控制问题[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
3 卓睿;陈宗海;陈春林;;强化学习在移动机器人导航上的应用[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
4 张伟;李建更;张家旺;;多智能体强化学习在机器人足球比赛中的应用[A];2005年中国智能自动化会议论文集[C];2005年
5 张家旺;韩光胜;张伟;;基于ASPL模型的多智能体强化学习在RoboCup中的应用[A];2005中国机器人大赛论文集[C];2005年
6 敬斌;田野;;Robocup中的传球策略[A];2005中国机器人大赛论文集[C];2005年
7 陈春林;陈宗海;卓睿;;分层式强化学习的定性空间表达[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
8 涂自然;王维;梁以业;禹建丽;;基于强化学习的自适应变步长机器人路径规划算法[A];2003年中国智能自动化会议论文集(上册)[C];2003年
9 叶道年;陈卫东;;机器人团队协作的强化学习[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
10 方宝富;王浩;姚宏亮;杨静;周晋;;Q学习在机器人足球中的应用[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 孙佳宇;强化学习教育 增强服务意识[N];人民公安报;2009年
2 首席记者 朱丽华;强化学习 落实责任 确保取得实效[N];盘锦日报;2009年
3 王良豪 记者 刘伟 龙先华;通过创新工作取得活动效果[N];六盘水日报;2008年
4 书分;解放区审计局强化学习抓作风[N];焦作日报;2006年
5 记者 刘琰;强化学习 增强本领 扎实工作[N];周口日报;2009年
6 本报记者 邓新灵 许朝林 通讯员 韩雁;智能主体车库让停车不再难[N];广东建设报;2004年
7 谭育才;强化学习 克己奉公[N];赤峰日报;2008年
8 章斌、特约记者夏吉龙;8710部队 破解难题强化学习教育效果[N];人民武警;2010年
9 通讯员 马全有;强化学习 搞好服务 解放思想[N];甘肃法制报;2007年
10 李北川;强化学习 找准问题 着力整改[N];凉山日报(汉);2007年
中国博士学位论文全文数据库 前10条
1 金钊;加速强化学习方法研究[D];云南大学;2010年
2 徐明亮;强化学习及其应用研究[D];江南大学;2010年
3 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
4 朱美强;基于谱图理论的强化学习研究[D];中国矿业大学;2012年
5 仲宇;分布式强化学习理论及在多机器人中的应用研究[D];哈尔滨工程大学;2003年
6 李誌;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年
7 曹鸿强;基于多经济智能主体的计算网格资源管理[D];中国人民解放军国防科学技术大学;2000年
8 郭庆;多Agent系统协商中若干关键技术的研究[D];浙江大学;2003年
9 戴朝晖;基于混合抽象机制的多智能体系统动态分层强化学习算法研究[D];中南大学;2012年
10 杨东勇;多机器人协作的学习与进化方法[D];浙江大学;2005年
中国硕士学位论文全文数据库 前10条
1 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
2 宋梅萍;多移动机器人协作任务的分布式决策控制系统[D];哈尔滨工程大学;2003年
3 卢方国;强化学习在个性化信息Agent的应用研究[D];广东工业大学;2004年
4 郭一明;基于强化学习的劣化系统维修策略研究[D];合肥工业大学;2011年
5 钱征;基于强化学习的倒立摆控制研究[D];北京工业大学;2005年
6 王瑞霞;基于强化学习的倒立摆控制[D];北京工业大学;2005年
7 顾鑫;个性化智能信息检索系统研究[D];哈尔滨工程大学;2004年
8 张驰;基于ROBOCUP的多智能体系统设计与实现[D];北京工业大学;2004年
9 袁继彬;大规模Markov系统基于性能势学习的NDP优化方法研究[D];合肥工业大学;2005年
10 汪向利;基于多Agent的生产计划与调度系统研究与开发[D];浙江工业大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026