收藏本站
《北京交通大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

主题模型及其在中医临床诊疗中的应用研究

张小平  
【摘要】:主题模型(Topic Model)能够提取隐含在文档(或其它离散数据集)中的主题,其中每个主题是语义相关的词上的多项式分布。主题模型的主要目的是提取数据集中隐含的统计规律且利用主题进行直观表达,然后可以利用获得的主题进行信息检索、分类、聚类、摘要提取以及进行信息间相似性、相关性判断等一系列应用。近年来,主题模型已逐渐成为文本挖掘、信息检索等领域的一个新的研究方向。 中国传统医学(简称中医)作为传统生命科学的一个重要组成部分,在疾病诊疗方面具有特色和显著的临床疗效。几千年的中医诊疗实践积累了大量的临床数据,这些数据中包含着丰富的符合中医理论的知识与规律。在中医信息化建设的背景下,利用现代化手段挖掘隐藏在这些临床数据中的中医诊疗规律具有重要意义。随着数据挖掘技术的逐渐成熟和广泛应用,利用数据挖掘等手段,分析挖掘中医诊疗规律已逐渐成为国内中医理论研究热点。近年来,研究人员应用聚类分析、关联规则以及回归分析和判别分析等方法研究中医理论,并已取得了一定的研究进展,但是,仍然难以体现中医的语义复杂性特点以及中医诊疗的系统性特点。 本文首次尝试把主题模型引入中医临床诊疗规律的研究中。使用主题模型的动机是我们不仅认为主题模型能够捕获中医临床诊疗数据集中的语义特征,而且认为主题模型中的主题推理及生成过程与《伤寒论》所述的“观其脉症,知犯何逆,随证治之”的中医辨证论治过程基本一致,都是由显变量到隐变量再到显变量的过程。本文利用主题模型分析了2型糖尿病、冠心病的临床诊疗数据以及中医文献数据。实验表明,利用主题模型能够提取出有临床意义的中医诊疗规律,为中医临床研究提供一种新颖的理论方法,为中医临床辨证治疗提供一种客观依据。 本文的主要工作如下: (1)以隐狄利克雷分配(Latent Dirichlet Allocation, LDA)模型为代表的主题模型,是近年来文本挖掘和信息检索等领域的一个新的研究热点。本文系统地对主题模型的产生背景、发展过程、LDA主题模型常用的推理方法以及典型的主题模型进行归纳总结。为本文的研究奠定基础,为相关研究人员在主题模型领域的应用研究提供较系统的参考依据。 (2)提出LDA主题模型的特征加权机制。我们直接采用LDA主题模型分析中医临床症状主题时,发现主题分布向高频词倾斜,能够代表主题特征的词被少量的高频词淹没,导致主题的解释性和区分性不佳,而且在建模过程中影响其它词在主题上的合理分配。于是,针对标准文本数据,采用倒排文档频率(Inverse Document Frequency, IDF)进行特征加权;针对中医临床数据,提出一种新颖的高斯函数特征加权方法。实验表明:加权LDA主题模型能够提高主题间的区分能力、提高主题的可解释性以及提高主题模型的建模速度;在Newsgroups标准数据集上,利用建模后的主题作为特征进行支持向量机(Support Vector Machine, SVM)分类时,能够提高分类准确率(Accuracy);能够在一定条件下,降低模型的困惑度/复杂度(Perplexity)。 (3)针对LDA主题模型不能自动确定主题数目的问题,提出一种结合词相似性与中国餐馆过程(Chinese Restaurant Process, CRP)的主题模型;同时,针对LDA主题模型的Gibbs抽样近似推理中的两个Dirichlet超参数难以合理设置的问题,提出一种新颖的超参数设置方法。实验表明:提出的模型可以自适应地动态更新主题内容,确定合理的主题数目;超参数的设置能够方便灵活地适应不同的数据集,取得较低的模型复杂度。 (4)分析主题模型和中医辨证论治的联系,在LDA模型和作者-主题模型的基础上,提出一种症状-中药-诊断主题模型,用于自动提取中医临床数据中症状、中药和诊断间的主题结构,系统地探索具有临床意义的多个实体间的关系。在2型糖尿病临床数据的分析实验中,获得了2型糖尿病典型的并发症/合并病(如糖尿病合并肾病,糖尿病外围神经病变等)的诊疗主题结构。实验结果分析表明:一类症状或其组合仅为人群/疾病分类找到了一种划分方式或依据,并不等同于该症状组合就对应唯一的证候或诊断,中医存在个性化诊疗特点;同时中医也存在共性的诊疗规律;提出的症状-中药-诊断主题模型能较好地揭示疾病的症状和中药分布特征以及中医诊疗规律。 (5)对于一种复杂疾病(如糖尿病),通常存在多种并发症。于是,体现出的症状存在疾病主症和伴随症状间的层次关系;同时,用药也存在相应的分层关系,即对方剂进行随症加减。针对上述情况,为了揭示症状及相应用药的层次关系,本文在分层LDA模型和连接LDA模型的基础上,提出一种分层症状-中药主题模型。该模型在糖尿病临床数据的实验中,发现了有临床意义的症状分层结构和对应的用药分层规律。为探索中医临床诊疗中的方剂随症加减规律提供一种新颖的统计方法。
【学位授予单位】:北京交通大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:R24

【引证文献】
中国博士学位论文全文数据库 前2条
1 李博;基于LDA和LSA的医学文本和影像分析模型及应用研究[D];吉林大学;2012年
2 贾冬梅;基于数据挖掘方法的聂莉芳教授治疗慢性肾小球肾炎经验研究[D];中国中医科学院;2012年
【参考文献】
中国期刊全文数据库 前10条
1 王华;胡学钢;;基于关联规则的数据挖掘在临床上的应用[J];安徽大学学报(自然科学版);2006年02期
2 张小平;周雪忠;黄厚宽;冯奇;陈世波;焦宏官;;一种改进的LDA主题模型[J];北京交通大学学报;2010年02期
3 李垠含;石岩;;数据挖掘技术在中医研究中的运用初探[J];长春中医药大学学报;2009年01期
4 袁占国;;十大问题困扰中医药的生存与发展[J];甘肃中医;2008年S1期
5 胡申宁;李文书;施国生;何芳芳;;基于PCA-AdaBoost的舌象颜色分类研究[J];广西师范大学学报(自然科学版);2009年03期
6 周君,冯妍,王泽涛;明清时期消渴病案59例用药统计分析[J];国医论坛;2005年06期
7 焦月;张新峰;卓力;;中医舌象样本分类中加权SVM的应用研究[J];测控技术;2010年05期
8 秦中广,毛宗源;粗糙神经网络及其在中医智能诊断系统中的应用[J];计算机工程与应用;2001年18期
9 韦玉科;汪仁煌;陈群;李江平;;基于竞争神经网络的中医智能诊断推理新方法[J];计算机工程与应用;2006年07期
10 郭红霞;王炳和;郑思仪;师义民;;基于概率神经网络的中医脉象识别方法研究[J];计算机工程与应用;2007年20期
中国重要报纸全文数据库 前1条
1 宋小莉;[N];中国中医药报;2004年
中国博士学位论文全文数据库 前2条
1 郝先中;近代中医废存之争研究[D];华东师范大学;2005年
2 封毅;中医药知识发现可靠性研究[D];浙江大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
2 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
3 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
4 孟庆全;徐文龙;;粗糙集合在中医诊断中的应用研究[J];安徽大学学报(自然科学版);2006年04期
5 张本成;李柳柏;;基于SIP视频会议的远程医疗会诊系统的设计与实现[J];安徽大学学报(自然科学版);2007年02期
6 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
7 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
8 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
9 章曙光;耿焕同;;一种改进的基于聚类的范例添加删除维护模型[J];安徽建筑工业学院学报(自然科学版);2006年01期
10 李永森;潘若愚;李传军;;公共设施选址优化研究[J];安徽建筑工业学院学报(自然科学版);2009年06期
中国重要会议论文全文数据库 前10条
1 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 徐玉峰;周丽华;肖清;陈劲松;;子空间聚类技术在中医方剂配伍中的应用研究[A];第二十七届中国控制会议论文集[C];2008年
3 ;An Fusion Model Based on Fuzzy Neural Network about the Traditional Chinese Medicine Intelligent Diagnosis and Inference[A];第二十七届中国控制会议论文集[C];2008年
4 查星云;;一种钢铁企业金属损耗平衡分析方法[A];全国冶金自动化信息网2012年年会论文集[C];2012年
5 李文涛;刘昶;王增绘;杨默;黄林芳;陈士林;;基于中医治疗血液病方剂的数据挖掘[A];2011年中国药学大会暨第11届中国药师周论文集[C];2011年
6 王忆勤;郭睿;颜建军;刘国萍;许朝霞;燕海霞;李福凤;徐琎;郝一鸣;钱鹏;许文杰;洪毓键;;基于多标记学习的中医问诊智能系统[A];全国第十二次中医诊断学术年会论文集[C];2011年
7 袁世宏;王天芳;张连文;;隐类分析在疾病诊断标准研究中的应用进展[A];全国第十二次中医诊断学术年会论文集[C];2011年
8 杨雪梅;甘慧娟;赖新梅;周常恩;陈梅妹;李灿东;;中医健康状态智能辨识模型研究现状[A];全国第十二次中医诊断学术年会论文集[C];2011年
9 罗凯;马啸;;新民主主义革命时期毛泽东“中西医结合”思想与实践[A];中国庆阳2011岐黄文化暨中华中医药学会医史文献分会学术会论文集[C];2011年
10 李东涛;王剑;李洁;朱敬秀;张美增;魏陵博;姜荣钦;刘学法;;冠心病中医证候疗效评价研究修改[A];第五次全国中医药防治血栓病学术交流会暨中华中医药学会血栓病分会换届改选工作会议论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
3 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
4 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
5 黄利兴;基于文本挖掘技术探索姚荷生咳嗽医案的证治规律[D];湖南中医药大学;2010年
6 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
7 王涛;基于医案统计分析的六味地黄丸(汤)及其类方证治分类研究[D];黑龙江中医药大学;2010年
8 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
9 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
10 戴霞;老年高血压病肾气亏虚证诊断规范化研究[D];山东中医药大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 马冉冉;集成学习算法研究[D];山东科技大学;2010年
3 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
4 胡申宁;中医舌诊中舌色、苔色自动分类的研究[D];浙江理工大学;2010年
5 郭慧;数据挖掘技术对放射工作人员知觉压力因素分析[D];郑州大学;2010年
6 娄铮铮;sIB算法在图像无监督分类中的应用研究[D];郑州大学;2010年
7 左国辉;基于子空间方法的人脸识别技术研究[D];哈尔滨工程大学;2009年
8 杨欣颖;潜器光视觉目标识别技术的研究与设计[D];哈尔滨工程大学;2010年
9 冯为军;基于粗糙集理论的数据挖掘算法的研究[D];哈尔滨工程大学;2010年
10 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 傅延龄,刘渡舟;抓主症方法的认识与运用[J];中国医药学报;1993年04期
2 李艳;;国医大师李济仁治疗慢性肾炎蛋白尿经验[J];中华中医药杂志;2010年01期
3 李明权,李峰,邹丽华;叶传蕙教授治疗血尿临床经验[J];成都中医药大学学报;2001年01期
4 郭立中,关明智,毛炜;叶传蕙教授治疗肾脏病经验[J];成都中医药大学学报;1997年02期
5 刘硕研;须德;冯松鹤;刘镝;裘正定;;一种基于上下文语义信息的图像块视觉单词生成算法[J];电子学报;2010年05期
6 吴军,王作英;汉语信息熵和语言模型的复杂度[J];电子学报;1996年10期
7 徐超;周一民;沈磊;;一种面向隐含主题的上下文树核[J];电子与信息学报;2010年11期
8 张涛;朱维克;徐自力;张连堂;;支持向量机在脏腑辨证中的应用[J];光盘技术;2007年04期
9 刘新,李朝平;刘宝厚教授慢性肾炎诊治经验[J];甘肃中医学院学报;1997年04期
10 章晓鹰,陈建杰,张珏;HLA基因多态性与临床疾病易感性的研究[J];国外医学(临床生物化学与检验学分册);2004年04期
中国博士学位论文全文数据库 前2条
1 刘峥;图像的语义标注及其改善问题研究[D];山东大学;2011年
2 邵虹;基于内容的医学图像检索关键技术研究[D];东北大学;2005年
中国硕士学位论文全文数据库 前2条
1 李莹;文本病历信息抽取方法研究[D];浙江大学;2009年
2 史琦孙科;吕仁和教授从风论治慢性肾炎药对浅析[D];北京中医药大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 赵忠旭,王爱民,沈兰荪;基于数学形态学和HIS模型的彩色舌图像分割[J];北京工业大学学报;1999年02期
2 王爱民,赵忠旭,沈兰荪;中医舌象自动分析中舌色、苔色分类方法的研究[J];北京生物医学工程;2000年03期
3 杨维益,陈家旭,王天芳,李峰,梁嵘;关于中医“证”研究的思考[J];中国医药学报;1996年01期
4 王顺道,任占利,杜梦华,解庆凡,贾滋欣;中风病始发态证候发生与组合规律的临床研究[J];中国医药学报;1996年03期
5 宋小莉,牛欣,司银楚;基于BP神经网络的半夏泻心汤及其类方配伍模型研究[J];中华中医药杂志;2005年06期
6 郭蕾;王学伟;王永炎;程翼宇;张志斌;张俊龙;;论高维高阶与证候的复杂性[J];中华中医药杂志;2006年02期
7 杨晓懿,刘嘉勇,陈淑敏;SVM在文本自动分类中的应用[J];成都信息工程学院学报;2005年02期
8 严石林,张连文,王米渠,袁世宏,朱永光,吴斌,郑文博;肾虚证辨证因子等级评判操作标准的研究[J];成都中医药大学学报;2001年01期
9 李秀昌,张红,周喆;月经过多证候学的系统聚类分析[J];长春中医学院学报;1999年01期
10 汪学昭,宓鹤鸣;女贞子微量元素的模糊聚类分析[J];第二军医大学学报;1995年02期
中国博士学位论文全文数据库 前1条
1 尚景盛;半夏泻心汤配伍规律数据挖掘方法初探[D];北京中医药大学;2005年
中国硕士学位论文全文数据库 前1条
1 刘晋平;數據挖掘在中医脉诊研究中的应用[D];天津中医学院;2002年
【相似文献】
中国期刊全文数据库 前10条
1 娄钰华;李生校;;高校危机管理策论——一个模型分析[J];中国高等医学教育;2006年09期
2 刘汝平;宋晶;张丽媛;;磨牙远移治疗中一种新的模型分析法的建立与应用[J];现代中西医结合杂志;2010年33期
3 刘红彦,吴海燕;发育期腭开展后骨骼及牙齿变化的分析[J];中国现代医学杂志;2005年20期
4 刘汝平;孙丽萍;宋晶;乌兰其其格;;上颌磨牙远移治疗中模型和X线片评价的差异性研究[J];现代中西医结合杂志;2009年33期
5 刘文苗;杨雪;王丽;吴春雨;;基于Maya技术的医学虚拟实验模型构建[J];实验技术与管理;2011年04期
6 吕超贤,孙莹玉,王晓霞;Ⅱ类Ⅰ分类错患者不拔牙矫治的疗效评价[J];中日友好医院学报;2005年04期
7 张达;胡敏;王芳;相亚宁;;安氏Ⅱ、Ⅲ类错畸形治疗后咬合关系与牙量比例的相关性研究[J];现代口腔医学杂志;2008年06期
8 陈仕检;毕桂南;石胜良;;啮齿动物类大鼠局灶性脑缺血模型分析[J];内科;2009年06期
9 冯兴梅;倪桂凤;沈小波;张健;姚淑萍;;X线头影测量不调值对口腔正畸诊断的影响[J];交通医学;2007年06期
10 陈芷若;;脑血管疾病的远期预后—危险比例的模型分析[J];国际脑血管病杂志;1993年02期
中国重要会议论文全文数据库 前10条
1 王季槐;M.J.Kropff;B.,Lammert;S.,Christensen;P.K.Hansen;;应用细胞自动机(CA)模型研究植物种群在可控制系统中的扩散机制:一年生杂草作为一个应用实例(英文)[A];贵州省自然科学优秀学术论文集[C];2005年
2 钱林晓;;个人人力资本投资决策的简化理论模型[A];2007年中国教育经济学年会会议论文集[C];2007年
3 王玲;赵妍;;基于Fishbein理性行为模型分析上海消费者美洲旅游行为影响因素[A];区域旅游:创新与转型——第十四届全国区域旅游开发学术研讨会暨第二届海南国际旅游岛大论坛论文集[C];2009年
4 毛曹珏;曹锐;;两种缺陷接地结构的模型分析[A];2007年全国微波毫米波会议论文集(下册)[C];2007年
5 肖建春;聂建国;马克俭;;桁拱支承索网结构模型的破坏试验[A];第三届全国现代结构工程学术研讨会论文集[C];2003年
6 李云梅;王秀珍;;用模型分析的方法探讨水稻冠层结构变化对冠层反射光谱的影响[A];第十四届全国遥感技术学术交流会论文摘要集[C];2003年
7 钱林晓;王一涛;;对应试教育条件下学生学习行为的模型分析[A];2005年中国教育经济学年会会议论文集[C];2005年
8 侯文峻;张建民;张嘎;;三板溪面板堆石坝应力变形的数值模拟[A];第二届全国岩土与工程学术大会论文集(上册)[C];2006年
9 赵雪松;杜荣;朱晓燕;;师徒模式下的知识共享效用模型分析[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集[C];2006年
10 陈银飞;;2000~2009年世界贸易关系的块模型分析[A];江苏省外国经济学说研究会2011年学术年会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 江苏省昆山市地税局;模型分析树标杆 层层深入破税案[N];中国税务报;2010年
2 媛萍;用模型分析企业战略要素[N];中国高新技术产业导报;2002年
3 白爱仙;基于Excel的工资管理模型分析[N];财会信报;2011年
4 特约撰稿 王芳;云南珠宝玉石产业领军全国[N];云南经济日报;2010年
5 记者  冯海波;粤寒冷灾害预报精度将超过95%[N];广东科技报;2006年
6 刘文杰 中南财经政法大学;政府和市场部门薪酬决定机制差异模型分析[N];中国社会科学报;2010年
7 范超;浅谈如何备战统计建模大赛[N];中国信息报;2011年
8 东北财经大学 张向达 李宏;加强灾害自然资产损失问题的研究[N];光明日报;2009年
9 东北证券策略分析师 郭峰;超过20%的跌幅可能不大会出现[N];上海证券报;2007年
10 李岭涛;定性+定量,诠释节目营销活动[N];中华新闻报;2004年
中国博士学位论文全文数据库 前10条
1 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
2 孙元;基于任务—技术匹配理论视角的整合性技术接受模型发展研究[D];浙江大学;2010年
3 赵顶位;中小学生几何类比推理能力诊断评价中的理论与技术研究[D];江西师范大学;2011年
4 史倩倩;二维强关联电子系统的gPEPS算法与二维t-J模型的基态相图[D];重庆大学;2012年
5 傅霞萍;水果内部品质可见/近红外光谱无损检测方法的实验研究[D];浙江大学;2008年
6 谭利;复杂网络模型及应用研究[D];中南大学;2010年
7 杨业兵;两级评分自陈式量表项目反应理论分析的方法与模型选择[D];第四军医大学;2011年
8 赵宏旭;波动方程的高斯过程模型分析及在晶圆切割中的应用研究[D];清华大学;2010年
9 陈普;FAVAR及其时变模型在中国宏观经济的应用[D];华中科技大学;2012年
10 车少辉;基于神经网络方法的杉木人工林林分生长模拟研究[D];中国林业科学研究院;2012年
中国硕士学位论文全文数据库 前10条
1 喻珠峰;基于LT模型的上市公司信用风险度量和管理研究[D];哈尔滨工业大学;2010年
2 柴莎莎;基于PSR模型安康市全球变化适应度评价[D];陕西师范大学;2011年
3 杜军;山东半岛城市群模型分析方法研究[D];山东师范大学;2007年
4 张达;应用模型测量及PAR指数测量研究安氏Ⅱ类、Ⅲ类错(牙合)畸形治疗后咬合关系[D];吉林大学;2008年
5 张存涛;中国城镇养老保险体系转轨成本的经济学分析[D];复旦大学;2008年
6 姚媛;房地产市场调研在项目前期定位中的实证研究[D];华中师范大学;2009年
7 张松磊;基于CGE模型的煤价—电价波动影响研究[D];华北电力大学(北京);2010年
8 刘勃;股指期货套期保值绩效实证分析[D];天津财经大学;2008年
9 杨绍创;信用风险度量方法及KMV模型的实证[D];华南理工大学;2010年
10 桂司文;基于KMV模型的我国上市公司信用风险度量的实证研究[D];中国科学技术大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026