收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

最小二乘策略迭代算法研究

周鑫  
【摘要】:强化学习是一种通过与环境的交互,将状态映射到动作,以获取最大累积奖赏的机器学习方法。在大规模和连续状态或动作空间强化学习问题中,通过使用函数逼近方法拟合策略形成了近似强化学习方法。最小二乘策略迭代是一类前沿的近似强化学习方法,其最小二乘逼近可以从样本中获取更多有效信息,并可以应用到在线算法中。本文着眼于在线最小二乘策略迭代算法,对其进行了以下几方面的扩展,提出了相应的算法: (1)针对在线最小二乘策略迭代算法对样本数据利用不充分、每个样本仅使用一次就被丢弃的问题,提出一种批量最小二乘策略迭代(BLSPI)算法。该算法在线保存生成的样本数据,多次重复使用这些样本数据以更新控制策略,可以有效利用之前的经验知识,提高经验利用率,加快收敛速度。 (2)针对最小二乘策略评估(LSPE)算法中步长参数固定或形式单一、缺乏自动性的问题,提出一种自动批量最小二乘策略迭代(ABLSPI)算法。该算法结合定点步长参数评估方法,高效地利用样本数据和策略动态调整步长参数,进一步提高了经验利用率,加快了收敛速度,并提高了学习过程的稳定性。 (3)将BLSPI算法扩展到连续动作空间,并针对状态空间维数较大状态特征较多时算法收敛速度较慢的问题,提出一种应用于连续动作空间的快速特征选择批量最小二乘策略迭代(CABLSPI-FFS)算法。该算法使用二值动作搜索方法减少了动作搜索的复杂度,并自动选择较优的状态特征评估策略,降低了状态空间的维数,减少了运算量,提高了算法的执行效率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 翟家波,李海奎;非线性最小二乘数值求解中Hesse矩阵的快速计算方法[J];微电子学与计算机;2004年12期
2 李庆扬,朱鹏;解非线性最小二乘的并行连续极小化算法及其数值试验[J];数值计算与计算机应用;1996年01期
3 冯大政,史维祥;用于有限脉冲响应滤波的递归全局最小二乘快速算法[J];西安交通大学学报;1999年04期
4 赵明旺;求解非线性最小二乘全局解基于最速下降法和遗传算法的混合算法[J];系统工程与电子技术;1997年08期
5 高坚,贺秉庚;用神经网络解非线性最小二乘问题[J];工科数学;2002年04期
6 陈腾博,陈轶博,焦永昌,张福顺;采用非线性最小二乘法实现圆环天线阵的方向图综合[J];微波学报;2005年01期
7 刘卫东,吴顺君;雷达电磁波大气吸收损失最小二乘拟合算法[J];西安电子科技大学学报;2000年03期
8 施旗;容易混淆的同音词(十二)[J];当代传播;1997年05期
9 郭路,齐润东,郑学合;一种新的基于特征值分解的双站无源定位算法[J];现代防御技术;2004年01期
10 赵明旺;非线性最小二乘全局解的混合计算智能算法[J];软件学报;1997年07期
11 杨自厚,李宝泽,刘静海;GMDH综合模型及其应用[J];控制与决策;1987年04期
12 刘书华,文良起,瞿建武;非圆曲线的最小二乘拟合法[J];新技术新工艺;2001年07期
13 周新,朱裕贞,印聿德;JOB法的计算机处理研究[J];计算机应用;1984年03期
14 董志荣;在线计算目标运动要素的时间序列分析方法[J];舰船科学技术;1985年07期
15 郑胜,田金文,柳健;二乘向量机在图像插值技术中的应用研究[J];计算机工程与应用;2004年17期
16 郑仲明;一种基于阵列天线的时延估计方法[J];电讯技术;2002年05期
17 郭小勤,徐刚,费跃农;机器人动力学系统的神经网络辨识[J];机电工程技术;2002年06期
18 韩庆瑶,贾桂红,黄燕梅;三次NURBS曲线轮廓的数控加工编程处理[J];煤矿机械;2005年01期
19 樊任军,王孝贤,张连生,徐国君;最佳动态过渡曲线法调试阻容移相双闭环调速系统[J];高师理科学刊;1996年01期
20 康善存,蒋君侠;一种非圆曲线的圆弧逼近方法[J];机械研究与应用;1999年01期
中国重要会议论文全文数据库 前1条
1 崔恒建;;T-型回归与最小一、二乘[A];中国现场统计研究会第12届学术年会论文集[C];2005年
中国博士学位论文全文数据库 前2条
1 唐月红;CAD超曲面重构技术研究及其应用[D];南京航空航天大学;2001年
2 乌秀春;反求工程中基于图像灰度信息的三维曲面重构研究[D];大连理工大学;2002年
中国硕士学位论文全文数据库 前10条
1 周鑫;最小二乘策略迭代算法研究[D];苏州大学;2014年
2 范文孝;路面材料性能反演方法的研究[D];大连理工大学;2002年
3 王保定;柔性路面材料性能的动力反演[D];大连理工大学;2002年
4 黄梦桥;多元AR(p)模型的估计理论[D];湖南大学;2002年
5 袁代林;推广的遗忘因子递推最小二乘算法在GPS中的应用[D];四川大学;2002年
6 周伟峰;基于单目多幅图像的三维曲面重构研究[D];大连理工大学;2002年
7 蒋红卫;偏最小二乘回归的扩展及其实用算法构建[D];中国人民解放军第四军医大学;2003年
8 杨菊娥;椭圆问题最小二乘混合有限元方法的超收敛性研究[D];湘潭大学;2003年
9 鲁木平;基于小波神经网络无速度传感器DTC系统参数辨识[D];沈阳工业大学;2004年
10 袁家新;判断矩阵的排序方法比较及其应用研究[D];南京理工大学;2003年
中国重要报纸全文数据库 前5条
1 关亚玫;蓝筹提振恒指[N];证券日报;2004年
2 府建明 李青;一肩担却古今愁[N];中华读书报;2004年
3 陈秉钊;城市规划科学性的再认识[N];广东建设报;2003年
4 沈义 陈启平 周一志 阳学智;合谋行窃后,乘警将行为人放跑应定何罪[N];检察日报;2005年
5 孔丰;综放(采)研究获重要成果[N];中国矿业报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978