收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于TileCoding的函数逼近强化学习研究

盛梦醒  
【摘要】:函数逼近是监督学习的一种应用,在机器学习、人工智能神经网络、模式识别和数据曲线拟合领域都有广泛研究。在高维状态空间的强化学习中,神经网络的使用可以有效解决维数灾问题。 本文针对函数逼近中效率低和维数灾问题,结合强化学习知识,进行了如下研究: (1)使用了简单的特征抽取方法TileCoding。该方法的优点是特征数和状态空间无关,函数的泛化能力取决于特征值感受野的大小和形状。实验证明,感受野影响函数泛化,泛化性能取决于特征值数目。 (2)使用了CMAC小脑神经网络算法,同时将强化学习算法与神经网络结合。该算法是种局部逼近方法,对于每个输入输出数据对,只有少量连接权需要调整,使其学习速度非常快。并用tiling来划分状态空间,保证学习速度快的同时,又减少了计算量。 (3)基于上述理论的研究,设计了小车实验。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 卢宏涛,戚飞虎;多维离散傅立叶变换神经网络函数逼近[J];上海交通大学学报;2000年07期
2 段永柱;陈松灿;孙炳彤;;改进的SDM模型及其在函数逼近中的应用[J];模式识别与人工智能;2001年02期
3 王泰华,余发山,葛云萍;小波神经网络用于非线性函数逼近的研究[J];西南民族学院学报(自然科学版);2003年01期
4 肖丽;张伟;;基于禁忌搜索的模糊规则自动获取[J];重庆教育学院学报;2007年03期
5 刘建春,王正欧;一种小波神经网络的快速学习算法及其应用[J];天津大学学报(自然科学与工程技术版);2001年04期
6 梁久祯,何新贵;模糊推理神经网络的函数逼近能力[J];系统工程与电子技术;2002年02期
7 吴凌云;BP神经网络学习算法的改进及其应用[J];信息技术;2003年07期
8 杨淑媛;焦李成;王敏;;一种自适应脊波网络模型[J];西安电子科技大学学报;2005年06期
9 鲍文胜;刘晓刚;;基于自适应遗传算法的RBF神经网络优化算法[J];山东师范大学学报(自然科学版);2007年03期
10 季云;;BP算法及其应用实例[J];中国新技术新产品;2010年09期
11 刘金月;祝宝玲;;连续小波过程神经元网络在非线性函数逼近的应用[J];长春理工大学学报(自然科学版);2010年03期
12 卞立兵;邓辉文;;基于OLS动态模糊神经网络结构研究[J];科学技术与工程;2011年03期
13 丁维明;吴小丽;魏海坤;;基于构造-剪枝混合优化RBF网络的煤灰熔点预测方法(英文)[J];Journal of Southeast University(English Edition);2011年02期
14 朱国强,刘士荣,俞金寿;支持向量机及其在函数逼近中的应用[J];华东理工大学学报;2002年05期
15 马钊,陆桂明,马国厚;利用可加性模糊系统处理图像数据的方法[J];华北水利水电学院学报;2004年01期
16 党开放;杨利彪;林廷圻;;一种新型的广义RBF神经网络及其训练方法[J];计算技术与自动化;2007年01期
17 孙丽英;葛超;朱艺;;RBF神经网络在函数逼近领域内的研究[J];计算机与数字工程;2007年08期
18 朱艺;孙丽英;葛超;张景春;;最小二乘算法在神经网络函数逼近方面的研究[J];山西电子技术;2007年05期
19 肖洪梅;王军;杨文方;丁传东;武卯泉;;BP、模糊、小波网络逼近性比较研究[J];西华大学学报(自然科学版);2008年01期
20 叶淑霞;郭裕顺;沈建国;;基于规则自动生成的模糊神经网络建模[J];杭州电子科技大学学报;2008年02期
中国重要会议论文全文数据库 前10条
1 于秀丽;沈雪勤;;RBF神经网络的一种新的学习算法[A];第六届全国计算机应用联合学术会议论文集[C];2002年
2 项海林;张殿治;;用小波网络进行非线性逼近[A];图像 仿真 信息技术——第二届联合学术会议论文集[C];2002年
3 吴涛;贺汉根;;基于最小二乘法的学习控制算法[A];2000中国控制与决策学术年会论文集[C];2000年
4 石明华;陈有安;;基于多元隶属函数的模糊系统是通用逼近器[A];2001中国控制与决策学术年会论文集[C];2001年
5 顾幸生;蒋慰孙;;m-PMCP逼近理论及其在分布参数系统控制中的应用(Ⅰ)——m-PMCP逼近理论[A];1994中国控制与决策学术年会论文集[C];1994年
6 郝继红;吕强;许耀铭;梁利华;;基于神经网络的模型参考自学习控制[A];1994中国控制与决策学术年会论文集[C];1994年
7 张毅;高衿畅;;基于sinc函数神经网络的函数逼近[A];1998中国控制与决策学术年会论文集[C];1998年
8 郭艳兵;齐占庆;王振臣;;径向基函数(RBF)神经网络及其应用研究[A];2002中国控制与决策学术年会论文集[C];2002年
9 丛爽;戴谊;;递归神经网络逼近性能的研究[A];'2006系统仿真技术及其应用学术交流会论文集[C];2006年
10 白焰;柴天佑;;一种新的二阶神经元网络模型及其学习算法[A];1997中国控制与决策学术年会论文集[C];1997年
中国博士学位论文全文数据库 前10条
1 荔建琦;进化决策的模型、关键技术与应用研究[D];中国人民解放军国防科学技术大学;2002年
2 王锐;复杂场景建模与绘制中的逼近问题研究[D];浙江大学;2007年
3 金钊;加速强化学习方法研究[D];云南大学;2010年
4 徐明亮;强化学习及其应用研究[D];江南大学;2010年
5 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
6 涂文戈;建筑结构静力弹塑性分析方法及其减震控制[D];湖南大学;2003年
7 沈艳;神经网络理论研究及在舰船运动预报中的应用[D];哈尔滨工程大学;2005年
8 朱美强;基于谱图理论的强化学习研究[D];中国矿业大学;2012年
9 石刚;基于Bezier函数的移动节点单元法原理及应用[D];清华大学;2002年
10 仲宇;分布式强化学习理论及在多机器人中的应用研究[D];哈尔滨工程大学;2003年
中国硕士学位论文全文数据库 前10条
1 盛梦醒;基于TileCoding的函数逼近强化学习研究[D];苏州大学;2012年
2 邢关生;基于强化学习算法的电梯动态调度策略的研究[D];天津大学;2005年
3 李亚楠;高维小波函数逼近[D];北方工业大学;2012年
4 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
5 宋梅萍;多移动机器人协作任务的分布式决策控制系统[D];哈尔滨工程大学;2003年
6 卢方国;强化学习在个性化信息Agent的应用研究[D];广东工业大学;2004年
7 董锐;基于神经网络的函数逼近方法研究[D];东北师范大学;2011年
8 孙正雅;电梯群控系统的自适应多目标优化方法研究[D];天津大学;2007年
9 郭一明;基于强化学习的劣化系统维修策略研究[D];合肥工业大学;2011年
10 钱征;基于强化学习的倒立摆控制研究[D];北京工业大学;2005年
中国重要报纸全文数据库 前10条
1 孙佳宇;强化学习教育 增强服务意识[N];人民公安报;2009年
2 首席记者 朱丽华;强化学习 落实责任 确保取得实效[N];盘锦日报;2009年
3 王良豪 记者 刘伟 龙先华;通过创新工作取得活动效果[N];六盘水日报;2008年
4 书分;解放区审计局强化学习抓作风[N];焦作日报;2006年
5 记者 刘琰;强化学习 增强本领 扎实工作[N];周口日报;2009年
6 谭育才;强化学习 克己奉公[N];赤峰日报;2008年
7 章斌、特约记者夏吉龙;8710部队 破解难题强化学习教育效果[N];人民武警;2010年
8 通讯员 马全有;强化学习 搞好服务 解放思想[N];甘肃法制报;2007年
9 李北川;强化学习 找准问题 着力整改[N];凉山日报(汉);2007年
10 陈滟澎 张玮(作者单位:市交通局公路处);强化学习提高机关办事效能[N];廊坊日报;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978