收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于支持向量技术的Agent强化学习研究与应用

刘扬  
【摘要】: 支持向量机(SVM)是基于统计学习理论的一种机器学习方法,它具有全局最优解和良好的泛化性能等优点。强化学习是一种无监督的机器学习技术,能够利用不确定的环境下Agent所获得的奖赏来发现最优的行为序列,因此被广泛用于Agent的智能决策。但标准的强化学习算法不能适用于连续状态空间和动作空间的学习。本文针对RoboCup中的具体问题,一方面通过支持向量回归方法来解决RoboCup中球员截球问题,一方面在强化学习中引入支持向量分类技术来解决强化学习中连续状态表示问题,使其适用于RoboCup复杂环境下的Agent智能决策。本文的主要研究工作如下: (1)针对RoboCup中截球问题引入了支持向量回归方法,它通过采集样本训练预测模型来预测agent成功截到球时球运动过的距离。为了达到更好的预测效果,对此模型的参数选择问题进行了相应的研究。最后将此预测模型与广义回归神经网络等传统方法相比较,结果表明在截球距离的预测精度方面要优于传统的广义回归神经网络。 (2)针对RoboCup中强化学习的连续状态表示问题,提出一种新的基于SVM分类的强化学习系统,其基本思想是通过SVM良好的泛化性能,先将整个状态空间划分为若干个区间以提供状态的可区分度,然后在此基础上建立状态到动作的映射关系。实验表明,该方法不但能学习到最优策略,并能通过SVM从有限小样本空间泛化到整个状态空间,从而有效解决连续状态空间的表示问题。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 赵丽,董红斌;多Agent系统在RoboCup中的应用[J];哈尔滨师范大学自然科学学报;2005年02期
2 咸鹤群;孟庆春;殷波;张继军;李占宾;;多Agent系统中的潜在角色值研究[J];哈尔滨工业大学学报;2003年09期
3 潘凌寒,楚威,程显毅;基于角色的RoboCup足球策略[J];计算机工程与应用;2004年26期
4 郭叶军,熊蓉,吴铁军;RoboCup机器人足球仿真比赛开发设计[J];计算机工程与应用;2003年29期
5 徐勇明,张培仁,王康正,郑旭东;四轮F180型足球机器人的控制系统设计[J];机械与电子;2005年02期
6 潘凌寒,程显毅,殷秀莲;机器人足球策略的研究[J];江苏大学学报(自然科学版);2004年03期
7 舒文杰,耿丽娜,郑志强;RoboCup仿真研究[J];系统仿真学报;2004年10期
8 张晓勇,彭军;RoboCup中传球策略的实现[J];计算机工程;2004年23期
9 张胜利,谢培军;RoboCup机器人足球仿真比赛开发设计流程[J];信息技术;2003年12期
10 王海玉,王磊,孙增圻;RoboCup小型组控制系统设计和实现[J];微特电机;2004年06期
11 姚望舒,沈建强,李宁,陈兆乾;BP神经网络容噪性分析及其应用[J];小型微型计算机系统;2005年04期
12 杨佩,赵志宏,陈兆乾;NDSocTeam仿真机器人足球队的设计和实现[J];南京大学学报(自然科学版);2003年05期
13 王昌达,程显毅,赵曦滨;基于Agent的RoboCup数学建模[J];计算机工程与应用;2003年10期
14 李静,骆斌,陈兆乾,陈世福;RoboCup中基于效果操作的动态行为规划模型[J];南京大学学报(自然科学版);2003年05期
15 潘邦传,王锐,刘宗田;多Agent系统的协同[J];计算机工程与应用;2002年18期
16 黄敏,佟振声;分布式多Agent系统的研究[J];电力情报;2002年01期
17 赵曦滨,赵志峰,程显毅;RoboCup中基于动态目标驱动的抢断策略分析[J];计算机工程与应用;2003年22期
18 俞辉,蹇继贵,沈艳军;基于Simulink的多Agent协调控制计算机仿真[J];三峡大学学报(自然科学版);2005年02期
19 程勇,张海俊,蒋运承,林芬,史忠植;基于复用的多Agent系统开发及支持工具设计[J];计算机工程;2005年11期
20 郝水侠,李凡长;一种多agent的并行认知模型及应用[J];计算机工程;2005年17期
中国重要会议论文全文数据库 前10条
1 楚威;程显毅;黄胜;;RoboCup中Agent的角色[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
2 郑舟敏;程显毅;王昌达;;RoboCup中射门与传球策略的实现[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
3 ;Investigation on A New Kick Equipment with Two Degrees of Freedom Controlled by FPGAfor RoboCup[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
4 彭姝迪;林静玉;周渠;李孟励;;加权支持向量回归机在传感阵列模式识别中的应用[A];重庆市电机工程学会2010年学术会议论文集[C];2010年
5 刘维超;;2D仿真组中关于射门方法的研究[A];2005中国机器人大赛论文集[C];2005年
6 刁建栋;高彬;沈亮;李春光;;常州工学院RoboCup-3D仿真设计[A];2005中国机器人大赛论文集[C];2005年
7 陈懿冰;张玲玲;石勇;;基于改进的支持向量回归机的金融时序预测[A];第六届(2011)中国管理学年会论文摘要集[C];2011年
8 刘载文;张弢;连晓峰;;基于颜色图像分割的RoboCup中型组机器人目标识别[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
9 王军;张俊;;RoboCup 3D通信分析[A];2005中国机器人大赛论文集[C];2005年
10 邓小英;杨顶辉;关昕;;基于支持向量回归的随机噪声消减和零漂去除[A];中国地球物理·2009[C];2009年
中国博士学位论文全文数据库 前10条
1 赵永平;支持向量回归机及其在智能航空发动机参数估计中的应用[D];南京航空航天大学;2009年
2 谭显胜;支持向量回归解释性体系的建立及应用[D];湖南农业大学;2010年
3 余艳芳;改进型支持向量回归机及其在过程建模与控制中的应用[D];华东理工大学;2010年
4 杨莉;RoboCup小型组足球机器人路径规划关键技术研究[D];武汉理工大学;2012年
5 周金柱;电子装备结构因素对电性能影响的支持向量建模与补偿[D];西安电子科技大学;2011年
6 蒋辉;经济预测的灰色支持向量回归方法[D];中南大学;2010年
7 陈沛帅;基于CORBA的多Agent系统的研究与开发[D];浙江大学;2003年
8 裴军芳;基于QPSO优化的聚合物玻璃化转变温度的支持向量回归研究[D];重庆大学;2012年
9 袁从贵;最小二乘支持向量回归及其在水质预测中的应用研究[D];广东工业大学;2012年
10 孙少超;数据校正和支持向量机的过失误差识别的研究[D];华东理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 刘扬;基于支持向量技术的Agent强化学习研究与应用[D];合肥工业大学;2007年
2 苗强;农民收入的粗糙支持向量回归与实证分析[D];安徽大学;2010年
3 杨增光;智能Agent的研究与实践[D];安徽大学;2004年
4 高建清;基于模糊Q学习的Agent智能决策研究与实现[D];合肥工业大学;2006年
5 阿磊;基于支持向量回归机的汇率预测[D];华东师范大学;2011年
6 王(山弄);支持向量回归在曲线拟合/重构中的应用[D];中国农业大学;2005年
7 王平;一种多Agent合作求解策略的研究与实现[D];华北电力大学(河北);2005年
8 陈金翠;最小二乘支持向量回归组合预测模型的应用[D];新疆大学;2010年
9 杨芳;基于支持向量回归(SVR)的材料热加工过程建模[D];上海交通大学;2010年
10 刘菊艳;基于数据挖掘技术的短期风速预测[D];西安科技大学;2010年
中国重要报纸全文数据库 前10条
1 梁涛;太原理工大学代表队摘金又夺银[N];太原日报;2008年
2 记者 钱怡;苏州两万学生玩机器人[N];苏州日报;2010年
3 本报记者 陈恒才 实习生 陈施雅;机器人能否变成真正的“人”?[N];中山日报;2008年
4 记者 谭华健;高新精尖电子产品尽展魅力[N];中山日报;2008年
5 杨保国;中国科大研制的机器人会说话能干活[N];科技日报;2009年
6 本报记者 许琦敏;培育大师的土壤,可以准备[N];文汇报;2011年
7 本报实习记者 李荔;会思考能推理的家庭机器人面世[N];北京科技报;2009年
8 记者 陈琳;机器人总动员[N];第一财经日报;2010年
9 谭华健 梁丽莎 黄晓忻;展示高新科技 体验智能生活[N];中山日报;2008年
10 本报记者 钱怡 徐磊;“机器人运动”喜忧录[N];苏州日报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978