收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

逆向增强学习和示教学习算法研究及其在智能机器人中的应用

金卓军  
【摘要】:近几十年来,示教学习一直是机器人研究领域中极富挑战性的研究课题之一在示教学习中,直接估计状态-动作映射往往无法考虑长期性影响。因此,研究者倾向于将示教学习过程分为估计环境参数和求解最优控制器两个步骤,间接地逼近示教策略。在若干环境参数表达方法中,回报函数具有泛化能力强、迁移性好和所需调节参数少等优点。目前,基于回报函数估计的示教学习正成为示教学习中应用最广泛的方法之一。回报函数的估计,又称为逆向增强学习,是指给定智能体行为、状态和环境动态模型,在马尔可夫决策过程模型中求解回报函数的问题。但是,基于回报函数估计的示教学习当前还存在几个需要解决的问题:(1)回报函数的估计过程无法序贯进行。(2)回报函数的学习结果只能提供点估计信息。(3)回报函数估计的性能对示教噪声敏感。针对上述问题,本文尝试在序贯估计和贝叶斯框架下对逆向增强学习问题进行了理论研究。 首先,本文从最大边际原则和约束一致性原则两个方面研究了序贯化逆向增强学习算法,从而为逆向增强学习的序贯算法研究提供了理论支持。基于最大边际原则,本文提出了增量式逆向增强学习方法。该方法将学习建模为二项分类问题,然后通过拟可加序贯学习框架的思想进行回报函数的序贯重估计。算法以序列化的方式处理依次到来的观察数据。基于约束一致性原则,本文提出了松弛投影逆向增强学习方法。本方法将回报函数的学习问题建模为具有非线性约束的可行区域问题。其主要思想是通过松弛投影算法序列化地将回报函数估计值对特定约束平面进行松弛投影。本方法避免了在回报函数估计过程中调用耗时的增强学习子过程。为了减少计算量,本文还讨论了约束约减方法。另外本文分别对上述两种方法进行了收敛性质的分析。 其次,为了解决当前算法中对回报函数仅进行点估计的局限性,本文在贝叶斯框架下将回报函数扩展到连续空间的分布形式并对回报函数进行分布估计。首先,本文基于贝叶斯框架引入了核方法,提出了基于高斯过程的回报函数建模方法。通过回报函数的高斯过程建模,本文将已有的逆向增强学习方法进行了扩展,提出了基于高斯过程的逆向增强学习算法。该算法不仅给出了回报函数估计值的置信度信息、,还通过核方法定义了学习特征。这些性质提高了基于逆向增强学习的示教学习在应用中的实用性。 然后,针对基于逆向增强学习的示教学习中示教策略存在噪声的问题,本文提出了基于贝叶斯logistic回归和变分近似方法的逆向增强学习算法。其主要思想是通过示教轨迹构造示教样本集将逆向增强学习的分类问题建模为贝叶斯logistic回归问题。变分贝叶斯方法被用来对后验分布进行近似求解。贝叶斯logistic回归方法对数据的抗噪特点为本算法带来了良好的对示教数据的鲁棒性。 最后,本文讨论了逆向增强学习方法在智能机器人行为样本评测问题中的应用。针对地面自主机器人评测系统中评测标准难以定义的问题,本文提出了一种基于倾向性分析的智能系统评测方法。该方法首先采用了基于主元分析法的特征提取方法对地面自主机器人行为样本数据进行了预处理,然后利用逆向增强学习算法、策略不变条件下的回报函数变形定理和线性子空间距离定义得到地面自主机器人行为的性能测度,从而定量地比较了示教样本与评测样本之间的差异。评测结果证明了该方法有效解决了地面自主机器人行为样本与示教样本之间难于定量比较的难题。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 程涛;张力;李帝凌;陈济棠;;基于ASP模式的数控手工编程示教学习系统[J];中国制造业信息化;2009年01期
2 刘庆龙,陈宗海;Linux环境下基于Agent的自主机器人仿真系统[J];计算机应用;2001年05期
3 阿笛;世界最小的自主机器人[J];中国军转民;2001年08期
4 梁琪;;智与勇的较量 2008年亚太大学生机器人大赛国内选拔纪实[J];机器人技术与应用;2008年05期
5 ;机器人、机械手、自动调节、控制与执行机构[J];电子科技文摘;2006年09期
6 金卓军;钱徽;陈沈轶;朱淼良;;回报函数学习的学徒学习综述[J];智能系统学报;2009年03期
7 马光,薛伟,申桂英,姜苏宾;自主机器人人工进化方法研究[J];华中科技大学学报(自然科学版);2004年S1期
8 赵增荣;韩提文;;基于Q-Learning的智能体训练[J];石家庄铁道学院学报;2007年02期
9 陈卫东,席裕庚,顾冬雷;自主机器人的强化学习研究进展[J];机器人;2001年04期
10 王杰高;;加大研发力度,发展我国工业机器人产业[J];机器人技术与应用;2010年06期
11 石拉姆;;机器人与未来战争[J];科学大观园;2011年12期
12 刘海涛,洪炳镕,郭耸;基于无线网络的全自主足球机器人[J];哈尔滨工业大学学报;2003年09期
13 梁冰,洪炳熔;FIRA'2001全自主式机器人竞赛系统[J];计算机应用研究;2003年07期
14 金卓军;钱徽;陈沈轶;朱淼良;;基于回报函数逼近的学徒学习综述[J];华中科技大学学报(自然科学版);2008年S1期
15 刘传才,杨静宇,唐振民;多个自主机器人的协作策略研究[J];计算机学报;1998年10期
16 孟伟,黄庆成,韩学东,洪炳镕;一种动态未知环境中自主机器人的导航方法[J];计算机研究与发展;2005年09期
17 魏英姿;赵明扬;;强化学习算法中启发式回报函数的设计及其收敛性分析[J];计算机科学;2005年03期
18 朱淼良,张新晖,吴春明,钱徽;自主机器人自组织结构IRASO的仿真研究[J];计算机研究与发展;1999年07期
19 陈锋;胡社教;陈宗海;;未知环境下自主机器人的行为学习研究[J];模式识别与人工智能;2002年04期
20 梁冰,洪炳熔,曙光;一种基于光流计算的机器人视觉与行为模型[J];宇航学报;2003年05期
中国重要会议论文全文数据库 前10条
1 柴毅;凌睿;;自主移动掘进机器人控制系统研究[A];第25届中国控制会议论文集(下册)[C];2006年
2 吴伟;刘春芳;徐心和;;基于地图匹配的自主机器人定位技术研究[A];2007中国控制与决策学术年会论文集[C];2007年
3 徐德;;自主机器人基于惯性与视觉传感器的定位综述[A];2008中国仪器仪表与测控技术进展大会论文集(Ⅰ)[C];2008年
4 程拥强;;基于势场法的自主机器人的路径规划[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
5 洪炳熔;梁冰;;基于传感融合的月球车导航[A];2003中国控制与决策学术年会论文集[C];2003年
6 陈余庆;王伟;;基于区域划分的非完整机器人编队复合控制[A];第二十四届中国控制会议论文集(下册)[C];2005年
7 孟江华;朱纪洪;孙增圻;;利用近似最优化方法实现机器人路径跟踪平滑控制[A];2005中国控制与决策学术年会论文集(下)[C];2005年
8 吴伟;;超声波移动测距方法研究[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(下)[C];2003年
9 仵博;宁志宇;吴敏;;一种基于行为的双层动态智能体结构[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
10 吴宪祥;于培松;万旻;倪伟;郭宝龙;;RoboCup中智能体的参数优化和学习[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 金卓军;逆向增强学习和示教学习算法研究及其在智能机器人中的应用[D];浙江大学;2011年
2 周彤;移动传感器网络节点部署及自定位技术研究[D];哈尔滨工业大学;2008年
3 李明富;生物视觉引导运动机制及机器人手眼协调研究[D];华中科技大学;2009年
4 朱美强;基于谱图理论的强化学习研究[D];中国矿业大学;2012年
5 王建平;多层次多阶段仿人智能控制与识别方法及其应用的研究[D];合肥工业大学;2007年
6 林怡青;自主机器人分布式结构及运动规划[D];华南理工大学;1998年
7 李寿涛;基于行为的智能体避障控制以及动态协作方法研究[D];吉林大学;2007年
8 徐凯;自主步行机器人运动控制及相关研究[D];中国科学技术大学;2008年
9 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
10 李白云;面向机器人自主导航的仿真关键技术研究[D];南京理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 王勇鑫;地面自主机器人的测试支撑架构与基于轨迹分析的导航性能评估方法[D];浙江大学;2010年
2 李成凤;群体自主机器人系统分布式优化与一致性控制[D];吉林大学;2012年
3 虞君锚;基于DSP与FPGA的全自主机器人的控制系统的研究[D];西华大学;2012年
4 杨朝;基于多智能体和Q-学习的交通控制与诱导协同方法研究[D];吉林大学;2008年
5 苏金文;基于组合策略的自主机器人定位技术研究[D];河南理工大学;2012年
6 赵高星;自主机器人燃料电池多能源动力系统研究[D];武汉理工大学;2009年
7 陈皎;基于机器视觉的自主机器人路径规划研究[D];重庆大学;2009年
8 沈志华;自主机器人视觉信息处理与跟踪导航研究[D];南京工业大学;2006年
9 姚栋;基于二维半描述的机器人三维环境建模技术研究[D];沈阳工业大学;2008年
10 赵帅;单波束扫描成像声呐的数据处理及其DSP实现[D];中国海洋大学;2010年
中国重要报纸全文数据库 前10条
1 英国《每日电讯报》董敏 译;机器人大战10年内开打?[N];北京科技报;2008年
2 本报专稿 仁非;美国机器人部队阵容越来越强大[N];世界报;2007年
3 石岩;智能敏捷家庭助理机器人综合平台[N];科技日报;2007年
4 本报记者 王小龙;无人战争之隐忧[N];科技日报;2011年
5 本报记者 张亮;机器爬虫:太空探索的未来使者[N];科技日报;2005年
6 操秀英;美科学家制造出智能肌肉修补薄膜[N];科技日报;2007年
7 记者罗冰;我智能机器人足球研究屡获佳绩[N];科技日报;2002年
8 ;我国机器人足球现状[N];经济参考报;2000年
9 杨文利;中科院“公众科学日”:自主研发机器人受关注[N];中国高新技术产业导报;2007年
10 耿学鹏;“机器人大战”10年内开打?噩梦当忧[N];新华每日电讯;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978