收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于点的值迭代算法在POMDP问题中的研究

房俊恒  
【摘要】:部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)是马尔可夫决策过程(Markov Decision Process,MDP)的扩展。在POMDP框架下,由于环境状态是部分可感知的,求解POMDP问题非常困难。基于点的值迭代思想使得对POMDP问题的求解取得了重大突破。当前POMDP问题的很多求解方法都是在这个基本思想上拓展的,主要是对可信空间子集的选择方法和值函数更新的次序进行改进。本文主要研究可信空间子集的选择方法,针对当前方法的不足,提出几种改进的基于点的近似值迭代算法:(1)对于大规模POMDP问题,传统的求解算法收集可信状态是不可控制的。针对该问题,提出一种改进的启发式搜索值迭代算法(Heuristic Search Value Iteration,HSVI)。该算法以可达性作为启发式标准来搜索具有重大价值的可信状态点,然后在这些点上对值函数进行局部更新,获得有效的近似最优策略。(2)在POMDP问题的近似算法中,使用基于试验的异步值迭代的HSVI算法能够处理规模最大的POMDP问题。然而,HSVI算法需要同时保存最优值函数的上界和下界并更新它们,而且更新上界时需要非常复杂的计算,这都大大降低了算法的性能。针对HSVI算法的缺点,本文提出另一种改进的向前搜索值迭代算法(Forward Search Value Iteration,FSVI),该算法利用MDP的最优策略来选择可信状态点,并且不再保存值函数的上界。(3)针对完整POMDP的求解方法扩展能力弱的问题,提出把多元POMDP分解成多个受限制的POMDPs,然后独立求解每个模型,获得值函数并把它们结合起来以便获得完整POMDP策略。该方法主要阐述识别与独立任务相关的状态变量的过程,以及如何构造被限制在单独任务上的模型。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 唐中勇;付强;卓佳;陈焕文;;一类基于启发式搜索的激励学习算法[J];计算机技术与发展;2006年08期
2 裴芳敏;亿珍珍;赵克;;启发式搜索在数学智能解题系统中的应用研究[J];计算机技术与发展;2010年07期
3 张钹,张铃;统计启发式搜索方法[J];计算机学报;1987年06期
4 董靖寰 ,张奠成;模糊启发式搜索初探[J];合肥工业大学学报(自然科学版);1989年02期
5 周金荣,蒋慰孙;一种新的启发式搜索法及其应用[J];信息与控制;1993年01期
6 张燕,袁书卿,鲁汉榕;一种使用启发式搜索优化的模糊规则分类方法[J];计算机工程与应用;2004年01期
7 李惠云,王先逵;铆焊零件标准工艺的关键字启发式搜索法[J];计算机辅助设计与制造;1995年04期
8 涂承宇,胡健,齐林伟,张岳;用于满意寻优的启发式搜索[J];北京工业大学学报;1996年04期
9 顾雪梅;;浅谈基于启发式搜索的规划算法实现[J];信息系统工程;2014年01期
10 李永前;《启发式搜索与人机博弈》教学设计[J];中小学信息技术教育;2003年10期
11 谷文祥;王改革;殷明浩;孙焱;;图规划框架下的启发式搜索的研究与发展[J];计算机科学;2009年11期
12 梁瑞仕;姜云飞;杨会志;;基于有序爬山法的前向启发式搜索规划[J];电子科技大学学报;2013年03期
13 舒忠正;人机对奕与启发式搜索[J];南京航空航天大学学报;1986年03期
14 李杨;陈佳豫;韩诚山;孙焱;谷文祥;;基于启发式搜索的灵活规划的算法研究与系统实现[J];计算机科学;2008年04期
15 张钹,张铃;启发式搜索中一种新的加权技术[J];清华大学学报(自然科学版);1986年03期
16 王军玲;赵沁平;;一种基于类比的启发式搜索方法[J];计算机科学;1998年05期
17 汪西原,汪西莉;启发式搜索策略(爬山法)的改进与实现[J];陕西师范大学学报(自然科学版);1999年01期
18 苏永定,钱彦岭,邱静;基于启发式搜索策略的测试选择问题研究[J];中国测试技术;2005年05期
19 张付志;侯娜;刘慧;马玉静;;一种基于启发式搜索的论文元数据提取算法[J];计算机应用与软件;2009年09期
20 颜兆林;任培;邢立宁;;求解仿真优化问题的知识型启发式搜索方法[J];计算机仿真;2007年12期
中国重要会议论文全文数据库 前3条
1 何星;许晓鸣;张钟俊;;一类基于实时启发式搜索的优化控制算法[A];1995中国控制与决策学术年会论文集[C];1995年
2 蔡阳波;邓一贵;王康;;并发启发式搜索蛙跳算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
3 耿沿锋;康凯;王宏;;基于启发式搜索的半导体集束设备调度[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
中国博士学位论文全文数据库 前1条
1 李诚;基于Petri网和启发式搜索的调度算法研究[D];浙江大学;2015年
中国硕士学位论文全文数据库 前7条
1 房俊恒;基于点的值迭代算法在POMDP问题中的研究[D];苏州大学;2015年
2 王改革;一种基于启发式搜索的感知图规划算法的研究与实现[D];东北师范大学;2010年
3 李杨;基于启发式搜索的灵活规划的算法研究[D];东北师范大学;2006年
4 李大为;基于图规划和启发式搜索的一致性规划求解[D];吉林大学;2013年
5 谭星星;基于商空间的粒度计算在启发式搜索中的应用与研究[D];广东工业大学;2008年
6 沈黎明;基于启发式搜索方法的机器人三维空间路径规划研究[D];燕山大学;2014年
7 董程玲;遗传连锁群中分子标记排序研究[D];南京林业大学;2011年
中国重要报纸全文数据库 前1条
1 程鸿兴 张宇;启发式搜索对信息化建设的价值[N];中国计算机报;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978