收藏本站
《北京交通大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

POMDP近似解法研究及在中医诊疗方案优化中的应用

冯奇  
【摘要】:序贯决策是人类在生产和生活中时刻都会遇到的问题,也是人工智能和控制领域的热点研究内容。部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP)是一种描述不确定环境下序贯决策问题的概率模型。POMDP的精确值迭代算法利用动态规划在整个信念状态空间上更新值函数,无法解决现实中大规模的POMDP问题。因此,对POMDP近似求解算法的研究具有重要的理论价值和现实意义。近几年来,基于点的值迭代算法成为POMDP模型主流的近似求解方法。基于点的算法只利用少量可以到达的信念状态更新值函数,其中如何选择用于更新值函数的信念状态和如何确定信念状态上值函数的更新顺序是基于点的值迭代算法的两个关键问题。然而现有算法在这两个方面仍然存在一定的不足,提出更好的信念状态选择算法是提高POMDP值函数收敛速度的重要因素,这正是本文的主要研究内容之一。 另外,在医学领域中,动态治疗方案规划是一种不确定环境下的多阶段决策问题。动态序贯干预是中医临床过程中治疗慢性疾病的基本方法。以患者为轴心的治疗原则和医生的个体性特点,使得中医动态序贯干预过程中包含多样化的治疗方案。临床专家往往试图通过这种无外部对照的、大量的临床数据获得疗效较好的治疗方案,进而逐步形成固化、有效的经验知识。但是,利用传统经验整理方式形成有效治疗方案是一个较为漫长的过程。如何从大规模、复杂的多维临床数据中发现较优的动态序贯治疗方案,成为有效临床方案形成的重要课题,也是辨证论治临床评价研究的关键问题。针对这一问题,本文提出用POMDP模型对中医临床观察性数据建模的方法,并从来自临床实际的大规模数据中发现优化的动态治疗方案,为中医辨证论治过程中的动态治疗方案规划和疗效评价提供一种有力的工具。 针对以上问题,本文的主要工作如下: 1.系统地归纳和总结了近几年POMDP模型近似解法中基于点的值迭代算法的有关理论与方法,特别是对信念状态的选择和信念状态上值函数的更新顺序两个方面进行了深入的分析。这些内容将是本文工作的基础。 2.提出了一种基于信念状态不确定性的信念状态选择算法UBBS。UBBS算法每次扩充信念状态集合时,首先选择不确定性较小并且到已选信念状态集合的1-范数距离大于一定阈值的信念状态。我们采用两种方法描述信念状态的不确定性:一种方法用信息论中的熵来衡量信念状态的不确定性,另一种方法利用信念状态本身最大概率元素与最小概率元素的间隔来计算信念状态的不确定性。实验结果表明,UBBS方法通过较少数量的信念状态就可以得到与其他算法相近的最优值函数。 3.提出了一种基于最短哈密顿通路产生用于更新POMDP值函数的信念状态轨迹的算法SHP-VI。SHP-VI方法是一种基于试探的POMDP值迭代算法,用计算最短哈密顿通路的近似算法求解一个最优行动序列,并利用该序列模拟Agent与环境的交互来探索信念状态空间从而得到一条信念状态轨迹,然后沿着信念状态轨迹反向更新值函数。实验结果表明,SHP-VI算法明显地提高了基于试探的算法中用于更新值函数的信念状态轨迹的计算效率,并减少了求解POMDP问题最优值函数的迭代次数。 4.如何从大规模的复杂多维临床数据里发现中医临床实际中较优的动态序贯诊疗方案,是辨证论治临床评价研究的关键问题。针对这一问题,提出了一种利用POMDP模型发现优化的动态治疗方案的方法。这是首次在中医领域里探讨用POMDP方法解决治疗方案规划问题,并且模型的所有参数均由实际临床数据计算得出。我们把中医临床专家可以直接观测到的症状体征作为观察变量,将健康状态数设置在一个适合的范围之内并通过K-均值聚类算法从临床数据中得到健康状态。利用大规模的临床数据来估计POMDP模型中的状态转移概率和观察函数,并用加权的症状改善作为治疗措施疗效的评价。实验中,对中医治疗2型糖尿病的临床数据建立了POMDP模型,并利用PBVI和UBBS算法求解并发现了临床数据中优化的处方治疗方案。实验表明,POMDP模型可以用于挖掘临床数据中较优的序贯治疗方案,能够为中医辨证论治有效动态干预方案的形成和临床验证提供参考知识。同时,实验也验证了我们提出的UBBS算法在解决实际问题时的有效性。
【学位授予单位】:北京交通大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP18;R24

【参考文献】
中国期刊全文数据库 前10条
1 仝小林;降糖心悟[J];中国医药学报;2004年01期
2 田元祥;翁维良;李睿;;中医临床研究治疗方案的优化[J];中华中医药杂志;2010年03期
3 王永炎;张启明;赵宜军;;对中医个体化诊疗的理解与解释[J];环球中医药;2009年03期
4 孙湧;仵博;冯延蓬;;基于策略迭代和值迭代的POMDP算法[J];计算机研究与发展;2008年10期
5 卞爱华;王崇骏;陈世福;;基于点的POMDP算法的预处理方法[J];软件学报;2008年06期
6 刘保延;周雪忠;;中医临床研究方法的思考与实践——系统生物学湿干研究模式与中医临床研究[J];世界科学技术-中医药现代化;2007年01期
7 周雪忠;刘保延;姚乃礼;陈世波;李平;王映辉;张润顺;;中医临床数据库及挖掘分析平台的研究与应用探讨[J];世界科学技术-中医药现代化;2007年04期
8 谢雁鸣;王永炎;翁维良;武常生;易丹辉;;中医临床方案优化的思路与方法探析[J];世界科学技术-中医药现代化;2008年01期
9 桂林;武小悦;;部分可观测马尔可夫决策过程算法综述[J];系统工程与电子技术;2008年06期
10 周雪忠;刘保延;王映辉;张润顺;姚乃礼;崔蒙;;复方药物配伍的复杂网络方法研究[J];中国中医药信息杂志;2008年11期
中国博士学位论文全文数据库 前2条
1 郑红;消渴病及其并病方药证治规律研究[D];山东中医药大学;2005年
2 殷苌茗;激励学习的若干新算法及其理论研究[D];上海大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
2 宋巧娜;唐德善;;基于灰色马尔可夫模型的农业用水量预测[J];安徽农业科学;2007年06期
3 李杰;林洪生;张培彤;朴炳奎;;中医个体化治疗中晚期恶性肿瘤的病案分析[J];癌症进展;2010年03期
4 钟尚平;林静;;一个基于TSVM的GIF图像通用隐写检测方法[J];北京交通大学学报;2009年02期
5 冯奇;周雪忠;黄厚宽;张小平;;POMDP基于点的值迭代算法中一种信念选择方法[J];北京交通大学学报;2009年05期
6 张冬梅;刘强;;一种基于强化学习的传感器网络应用重构决策方法[J];北京交通大学学报;2010年03期
7 王春新;戴锋;姜玉朗;;信息化建设过程风险分析及其智能化管理方法[J];兵工自动化;2011年04期
8 杨萍;毕义明;孙淑玲;;具有自主决策能力的机动单元智能体研究[J];兵工学报;2007年11期
9 赵晓华;李振龙;于泉;张杰;;基于切换模型的两交叉口信号灯Q学习协调控制[J];北京工业大学学报;2007年11期
10 孙若莹;李忱;赵刚;;基于强化学习的牛鞭效应对策模型[J];北京信息科技大学学报(自然科学版);2011年01期
中国重要会议论文全文数据库 前10条
1 毛剑琳;向凤红;冯丽辉;;一种改进的IEEE802.15.4自适应实时带宽分配策略[A];第二十七届中国控制会议论文集[C];2008年
2 马丽;刘惟一;;多个交通路口调度博弈模型及其均衡求解的增强学习算法[A];第二十七届中国控制会议论文集[C];2008年
3 ;Complexity Analysis of Quantum Reinforcement Learning[A];第二十九届中国控制会议论文集[C];2010年
4 蒋全胜;贾民平;胡建中;许飞云;;一种基于流形学习的故障模式识别方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
5 徐云峰;;一种新的取证计算模型的研究与实现[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
6 朴松昊;洪炳熔;褚海涛;;基于BDI的多Agent协作模型研究[A];2003中国控制与决策学术年会论文集[C];2003年
7 刘长有;孙光余;;一种应用Elman型回归网络的Q-学习[A];2004中国控制与决策学术年会论文集[C];2004年
8 邹亮;徐建闽;;基于Q-learning的电子地图动态最短路径求解方法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
9 ;Hybrid Q-learning Algorithm About Cooperation in MAS[A];2009中国控制与决策会议论文集(3)[C];2009年
10 ;An Adaptive Inventory Control for a Supply Chain[A];2009中国控制与决策会议论文集(3)[C];2009年
中国博士学位论文全文数据库 前10条
1 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
2 王作为;具有认知能力的智能机器人行为学习方法研究[D];哈尔滨工程大学;2010年
3 高延增;超小型水下机器人关键性能提升技术研究[D];华南理工大学;2010年
4 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
5 徐丽;基于历代医案数据库整理和临床问卷调查的月经量、色症状规范的研究[D];山东中医药大学;2010年
6 杨国鹏;基于机器学习方法的高光谱影像分类研究[D];解放军信息工程大学;2010年
7 皋军;智能识别中的降维新方法及其应用研究[D];江南大学;2010年
8 黄正行;临床过程分析与优化技术研究[D];浙江大学;2010年
9 曹晓刚;原材料价格波动下的生产—库存管理研究[D];武汉大学;2009年
10 林龙信;仿生水下机器人的增强学习控制方法研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 马冉冉;集成学习算法研究[D];山东科技大学;2010年
2 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
3 左国辉;基于子空间方法的人脸识别技术研究[D];哈尔滨工程大学;2009年
4 杨欣颖;潜器光视觉目标识别技术的研究与设计[D];哈尔滨工程大学;2010年
5 蒋延生;基于图的适应性相似度估算的半监督学习[D];大连理工大学;2010年
6 李志强;Q学习在单路口交通信号控制中的应用研究[D];长沙理工大学;2010年
7 夏青青;道路交通安全事故成因及预测模型研究[D];长沙理工大学;2010年
8 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
9 赵群;极小化标注的音频分类和句子切分的研究[D];中国海洋大学;2010年
10 张丽;无标注自学习反垃圾邮件服务的研究[D];中国海洋大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 蔡红娇,张晓琴,涂晋文,谭荣益,林炳辉,王奇,赖世隆;体外培育牛黄与天然牛黄的2种安宫牛黄丸治疗中风疗效与安全性比较研究[J];中医药临床杂志;2004年05期
2 阎红灿;金殿川;韩雪涛;;基于数据库的层次分析法在教评教中的应用[J];电脑知识与技术(学术交流);2007年05期
3 张波,蔡庆生,郭百宁;口语对话系统的POMDP模型及求解[J];计算机研究与发展;2002年02期
4 陈茂;陈小平;;基于采样的POMDP近似算法[J];计算机仿真;2006年05期
5 马辉民;李强;;应用AHP层次分析法评估ERP项目风险[J];计算机与数字工程;2006年03期
6 沈平尔;走出单煎、共煎争论的认识误区[J];江苏中医药;2002年02期
7 焦广明;中药共煎与分煎临床疗效对比研究和讨论[J];江苏中医药;2002年07期
8 郝元涛,方积乾;结构方程模型及其在医学中的应用研究[J];中国医院统计;2003年04期
9 郭蕾,王永炎,张志斌;关于证候概念的诠释[J];北京中医药大学学报;2003年02期
10 张志斌,王永炎;辨证方法新体系的建立[J];北京中医药大学学报;2005年01期
中国博士学位论文全文数据库 前1条
1 姜兆顺;基于结构化住院病历采集系统对糖尿病及血管并发症辨证论治规律的研究[D];中国中医研究院;2005年
中国硕士学位论文全文数据库 前2条
1 高铸烨;基于数据挖掘对急性冠脉综合征辨证论治规律的探索性研究[D];中国中医科学院;2006年
2 张华;田从豁教授临床配穴经验的整理研究[D];中国中医科学院;2006年
【相似文献】
中国期刊全文数据库 前10条
1 刘凯;董西广;;带参数扰动非线性系统的变结构控制[J];河南工程学院学报(自然科学版);2011年02期
2 吴爱国;段广仁;;不确定连续线性系统鲁棒ESPR估计[J];黑龙江大学自然科学学报;2005年04期
3 邱若臻;黄小原;;电子市场环境下供应链运作的鲁棒优化模型[J];管理工程学报;2007年04期
4 钱堃;马旭东;戴先中;房芳;;预测行人运动的服务机器人POMDP导航[J];机器人;2010年01期
5 闫书亚;殷明浩;谷文祥;刘小飞;;概率规划的研究与发展[J];智能系统学报;2008年01期
6 胡圣波;张建瑞;;一种基于QoS的自主通信最优判决策略[J];计算机工程;2009年13期
7 冯奇;周雪忠;黄厚宽;张小平;;POMDP基于点的值迭代算法中一种信念选择方法[J];北京交通大学学报;2009年05期
8 周浩浩;邓苏;黄宏斌;;求解DEC-POMDP问题的改进遗传算法[J];电子设计工程;2011年18期
9 仵博;吴敏;;部分可观察马尔可夫决策过程研究进展[J];计算机工程与设计;2007年09期
10 闵华清;曾嘉安;罗荣华;朱金辉;;一种状态自动划分的模糊小脑模型关节控制器值函数拟合方法[J];控制理论与应用;2011年02期
中国重要会议论文全文数据库 前10条
1 林琼斌;蔡逢煌;杨富文;;参数不确定系统的多目标鲁棒PID控制器设计[A];第十七届全国过路控制会议论文集[C];2006年
2 李井奎;史晋川;张利风;;不确定性、破产与侵权事故的预防[A];2012年度(第十届)中国法经济学论坛论文集[C];2012年
3 孙蓓云;周辉;陈向跃;毛从光;;用Bootstrap方法求取电磁脉冲损伤函数[A];第十届全国抗辐射电子学与电磁脉冲学术年会论文集[C];2009年
4 张美玉;刘玉忠;;具有执行器饱和的不确定时滞切换系统的反馈镇定[A];2009年中国智能自动化会议论文集(第一分册)[C];2009年
5 俞新尧;陈宗基;;鲁棒自适应控制系统[A];1996中国控制与决策学术年会论文集[C];1996年
6 黄德才;赵克勤;钱能;;描述和处理系统不确定量的一种新方法[A];1999中国控制与决策学术年会论文集[C];1999年
7 洪奕光;秦化淑;;力学系统的鲁棒控制[A];1994年中国控制会议论文集[C];1994年
8 费敏锐;郎文鹏;陈伯时;;工业炉窑用智能控制方法进展[A];1995年中国控制会议论文集(下)[C];1995年
9 刘闯;刘西拉;;结构体系可靠性计算精度的探讨[A];第四届全国结构工程学术会议论文集(下)[C];1995年
10 孟红霞;贾英民;;一类非线性延迟不确定系统的神经网络变结构控制[A];第二十二届中国控制会议论文集(上)[C];2003年
中国重要报纸全文数据库 前10条
1 国务院发展研究中心金融研究所所长 夏斌;密切关注不确定性 相机抉择从紧政策[N];金融时报;2007年
2 霍侃;七项政策应对宏观经济不确定性[N];商务时报;2008年
3 吕航;英国货币政策给英镑带来不确定性[N];金融时报;2005年
4 金吾伦;复杂性思维的特征[N];学习时报;2005年
5 崔吕萍;宝硕大股东祭出清欠预案[N];北京商报;2006年
6 国家信息中心经济预测部 牛犁;次贷危机增加国际油市不确定性[N];中国经济导报;2007年
7 林喆;医药行业一季度景气度“回暖”[N];中国医药报;2007年
8 证券时报记者  魏曙光;A50指数期货上市首日遇冷[N];证券时报;2006年
9 上海证券研发中心 郭燕玲;收官之战机会向两大预期集中[N];上海证券报;2007年
10 国都证券 张翔;继续反弹空间有限[N];中国证券报;2008年
中国博士学位论文全文数据库 前10条
1 冯奇;POMDP近似解法研究及在中医诊疗方案优化中的应用[D];北京交通大学;2011年
2 夏强;地下水不确定性问题的多模型分析方法及应用[D];中国地质大学(北京);2011年
3 田俊峰;不确定性条件下供应链管理优化模型及算法研究[D];西南交通大学;2005年
4 殷苌茗;激励学习的若干新算法及其理论研究[D];上海大学;2006年
5 张营;我国通货膨胀率波动、不确定性与宏观经济运行研究[D];吉林大学;2009年
6 叶忠;教育与就业关系的不确定性[D];华中师范大学;2004年
7 陈玥;基于灰色系统理论和云模型的反精确洪水灾害分析[D];华中科技大学;2010年
8 蒋国萍;软件项目风险管理的贝叶斯网络模型研究[D];国防科学技术大学;2005年
9 杜小勤;强化学习中状态抽象技术的研究[D];华中科技大学;2007年
10 陈作贤;最小相位不确定非线性系统的鲁棒自适应输出调节[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 修国明;实用POMDP近似求解算法的研究[D];哈尔滨工业大学;2009年
2 梁田;不确定性智能规划算法研究[D];吉林大学;2008年
3 李健;不确定理论在机械产品设计中的应用研究[D];西华大学;2011年
4 吴晶林;不确定条件下的供应链网设计问题研究[D];西安电子科技大学;2006年
5 李元磊;法律的确定性问题研究[D];吉林大学;2008年
6 韩昕彤;影响企业纵向一体化绩效的战略期权价值实证研究[D];上海交通大学;2009年
7 鞠花;论英国维多利亚小说中劳工阶级人物道德观的不确定性[D];东北师范大学;2009年
8 庞春阳;我国货币政策不确定性检验与政策效果预测[D];吉林大学;2010年
9 杜石磊;考虑徐变效应的预应力混凝土梁的可靠度分析[D];北京交通大学;2011年
10 张远勤;基于LMI和MRD的建筑结构振动控制研究[D];福州大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026