收藏本站
《华中科技大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

强化学习中状态抽象技术的研究

杜小勤  
【摘要】: 抽象技术允许系统忽略与当前决策无关的一些细节,而仅仅只考虑那些有关的或重要的因素,是用于解决“维数灾”问题的一种重要技术。在强化学习领域,存在着两类主要的抽象技术:过程抽象与状态抽象。过程抽象指的是忽略掉一个复杂动作的执行细节,而把它当作一个整体(抽象动作)来看待。状态抽象指的是忽略掉状态向量中与当前决策不相关的特征,以达到状态空间压缩的效果。就状态抽象技术而言,虽然它已经取得了一定的进展,但仍然存在着许多问题。 针对多维连续状态空间的离散化精度问题,构造了一种基于自组织神经网络的状态抽象方法,它将自组织神经网络、资格迹及Actor/Critic强化学习框架进行了有机的集成。该方法的特点如下:利用自组织神经网络并结合智能体自身在线获取到的数据来离散化连续状态空间,以获得良好的量化精度;同时,自组织神经网络的工作机制也利于智能体自主地在线量化连续空间;将量化空间的自组织特性和资格迹技术相结合以调整强化学习的性能指标。 针对目前的层次强化学习框架还缺乏面向问题的表达能力这一问题,对SMDPs问题进行了分类,定义了HAM-可分解概念,明确了HAM机、HAM-可分解及策略耦合SMDPs这三者之间的关系,并证明了HAM框架适合解决策略耦合SMDPs问题。实际上,上述框架表明了HAM的策略耦合观点,它从问题的角度来描述层次强化学习方法。在HAM的策略耦合基础上,针对一类具有有向无环图形式的策略耦合SMDPs问题,提出了一种层次分解方法。该方法充分利用了HAM体系中的CALL状态与CHOICE状态这两个核心概念。与其他方法相比,该方法在构造层次时所需的信息较少,而且各层子任务单一,允许执行的动作集有限;同时,各层间相对独立的特点便于使用状态抽象技术加快学习速度。 在HAM策略耦合观点的基础上,提出了基于HAM的同态变换方法,可以有效地解决基于子过程的状态抽象方法的抽象能力有限及HAMs模型本身存在的联合状态空间这一问题,并进行了理论分析与实验验证。在此基础上,从实用的观点出发,总结了应用同态变换进行状态抽象的几个重要的观点,并且还讨论了近似同态变换与Bootstrapping技术、部分同态变换等实用技术。 从层次强化学习方法应该满足面向问题的求解这一基本需求的角度出发,在上述提出的主要概念与理论的基础上,给出了一个统一的框架:它初步支持问题的建模分析与计算求解;允许同时使用多种抽象机制;并且能够同时学习层次最优策略和递归最优策略。同时,还提出了一种NPCs行为设计方法,并在一个实际的游戏平台——Quake2平台上,采用该方法为NPCs设计了移动行为,表明了本文提出的方法可以应用于实际问题。
【学位授予单位】:

知网文化
【相似文献】
中国重要会议论文全文数据库 前7条
1 曲阳;徐林;王建辉;顾树生;;基于信息博弈的多源信息融合方法[A];2005年全国自动化新技术学术交流会论文集[C];2005年
2 曲阳;徐林;王建辉;顾树生;;基于信息博弈的多源信息融合方法[A];2005全国自动化新技术学术交流会论文集(二)[C];2005年
3 周盛强;向锦武;;进化合作博弈在飞机总体优化中的应用[A];第二届中国航空学会青年科技论坛文集[C];2006年
4 李科威;;计算机实现中西医结合的对等问题[A];第五次全国中西医结合中青年学术研讨会论文汇编[C];2004年
5 李先进;杜鹏;杨肇夏;;基于协商的列车运行调整方法研究[A];可持续发展的中国交通——2005全国博士生学术论坛(交通运输工程学科)论文集(上册)[C];2005年
6 高峰;冯明农;王鹏;;基于智能适配器技术的气象数据入库通用模型研究[A];2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文摘要[C];2011年
7 郭琳;叶鹏;;通信原理仿真教学软件的研究与设计[A];教育部中南地区高等学校电子电气基础课教学研究会第二十届学术年会会议论文集(上册)[C];2010年
中国重要报纸全文数据库 前3条
1 陶世群;音乐教育要突出“三性”[N];中国艺术报;2006年
2 石帆;企业治理以会计治理为中心[N];财会信报;2008年
3 罗娟;快乐出发[N];工人日报;2009年
中国博士学位论文全文数据库 前4条
1 杜小勤;强化学习中状态抽象技术的研究[D];华中科技大学;2007年
2 齐宁;静态二进制翻译中基于软件规范的函数识别及恢复技术研究[D];解放军信息工程大学;2006年
3 吴含前;产品并行开发过程建模及PDM关键技术研究[D];南京航空航天大学;2001年
4 谷志新;生物质致密成型过程模孔力学及参数优化研究[D];东北林业大学;2012年
中国硕士学位论文全文数据库 前10条
1 李立;公路隧道火灾仿真及应急预案研究[D];长安大学;2011年
2 江成城;组织沟通中错误传递的研究[D];广东工业大学;2003年
3 王晓璐;热学CAI积件库的设计与开发[D];贵州师范大学;2008年
4 刘侃;基于网络化的快速成型制造技术研究[D];大连理工大学;2000年
5 任少军;工作流技术在企业经营中的应用[D];西安建筑科技大学;2004年
6 罗新星;协同工作环境下的工程变更管理研究[D];华中科技大学;2004年
7 顾永;三维纵横步进编织过程的置换表达及其算法实现[D];东华大学;2005年
8 徐皓;建构学与云南本土建筑创作[D];昆明理工大学;2003年
9 邱震宇;基于OpenGL的螺栓节点球可视化加工过程仿真[D];兰州理工大学;2003年
10 邵红青;基于属性论方法的自动组卷问题研究[D];上海海事大学;2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978