收藏本站
《哈尔滨工业大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

实用POMDP近似求解算法的研究

修国明  
【摘要】:在人工智能领域,动态的、不确定性的序列决策问题是研究Agent与环境交互的策略的核心问题。在实际应用领域,随着系统的复杂化,大量的问题都可抽象为动态的、不确定性的序列决策问题,因而对这些问题的研究具有广泛而深远的意义。POMDP作为求解满足Markov假设的动态的、不确定性的序列决策问题的一种强大而灵活的框架,成为研究的焦点。 本文从实用性角度出发,研究了获得最优POMDP策略的算法。 从对实际应用的广泛适用性出发,本文研究了基于实例的算法,包括NNI,LWI和ENNI。此算法结合使用了基于实例学习和增强学习的技术。通过实例学习,可获取Agent的准确的交互数据,由于它对模型没有特殊要求,因此使得最终的算法具有广泛的适用性,不仅可在离散的Markov环境下应用,更可以应用于连续状态的情况和非Markov环境的情况。通过增强学习,不断地搜索策略空间,寻找更优的策略。通过学习获得了与策略相关的数据,然后使用启发式的求解方法来获得优化的策略。实验表明,在没有模型参数的情况下,它可获得优于Q-MDP算法的策略。 为了解决POMDP求解算法的复杂性问题,开发高效的求解算法,本文研究了基于核信念的求解算法KBVI。KBVI通过采样从初始信念状态可达的信念状态获得与具体问题结构相关的信息,基于这些数据通过值迭代求解POMDP来获得最优策略。KBVI把求解POMDP的复杂性降低到多项式级,与其他的基于信念点的算法相比,它可以更高效的获得同等的甚至更优的策略。 为了获得求解POMDP的相关数据,使用某种算法求解POMDP和运行某种POMDP策略来对它的性能进行测试,本文开发了一个Agent运行平台,它由Agent模型和运行环境模型组成。在这个平台上获得了使用基于实例的算法和KBVI算法求解典型的POMDP问题的性能数据,并与其他算法的性能进行了对比,验证了本文算法具有良好的性能。本文也试图通过开发此Agent运行平台来建立POMDP应用的框架和基础组件。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP18

手机知网App
【相似文献】
中国重要会议论文全文数据库 前1条
1 王丹丽;刘国华;宋金玲;李芳玲;;k-匿名模型中准标识符最佳值的求解问题[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
中国博士学位论文全文数据库 前6条
1 冯奇;POMDP近似解法研究及在中医诊疗方案优化中的应用[D];北京交通大学;2011年
2 熊正大;链式几何结构的拟人型优化方法[D];华中科技大学;2011年
3 孙一品;车载自组网隐私保护关键技术研究[D];国防科学技术大学;2010年
4 陈锋;基于多目标攻击图的层次化网络安全风险评估方法研究[D];国防科学技术大学;2009年
5 王林;多无人机协同目标跟踪问题建模与优化技术研究[D];国防科学技术大学;2011年
6 吴锋;基于决策理论的多智能体系统规划问题研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 修国明;实用POMDP近似求解算法的研究[D];哈尔滨工业大学;2009年
2 张煜;基于POMDP网络认知的动态频谱接入算法与策略分析[D];南京邮电大学;2012年
3 曾贤勋;基于反馈控制机制的多阶段攻击检测技术研究[D];解放军信息工程大学;2008年
4 卢旭;分布式系统自愈调控关键技术研究[D];哈尔滨工程大学;2009年
5 钟伟;一种基于多Agent系统的中间件平台的设计与实现[D];天津大学;2005年
6 马军;媒体内容分发系统的动态数据部署算法研究[D];中国科学技术大学;2009年
7 芦珊;基于P2P的媒体分发网络接入控制研究[D];中国科学技术大学;2010年
8 高杨;认知无线电动态频谱接入技术的研究[D];苏州大学;2012年
9 陶乃顺;认知无线电网络中频谱接入技术研究[D];重庆大学;2011年
10 刘法;基于马尔可夫模型的认知无线电智能频谱接入算法[D];哈尔滨工业大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026