收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于LDA和LSA的医学文本和影像分析模型及应用研究

李博  
【摘要】:医学文本及影像数据可以利用语义分析技术来进行建模和统计,从而分析得到各种数据间的数学关系。这种不含有人主观色彩的数据分析技术可以为医生提供客观的诊断依据及辅助诊疗信息。 对数据信息进行语义建模是语义分析的基础,目前隐变量模型和树模型是国内外在语义建模领域的两种主流研究方向,针对医学信息的特点,两种语义建模方法各有利弊: (1)隐变量模型可以较好地从医学信息集中提取出“概念、规则和模式”之间存在的潜在关联性。由于隐变量模型都是基于词袋(bag of words)的设计思想,因此建模过程中忽略了信息中语义元素的结构、位置和层次等浅层语义特征,而在医学信息应用的各个环节(比如检索、文本生成等)中都不同程度地需要利用这些语义特征。 (2)树模型能利用拓扑结构反映出语义元素之间语义相关、相对位置或空间分布等关联性,如剖析树、上下文树等。树模型的建模对象一般是简单的概率关系或字面语义,缺乏从隐含语义的角度对信息进行的分析,因此无法从更深层次对医学信息进行处理和利用(比如辅助诊断)。 在对以上模型研究的基础之上,针对目前医学信息语义分析技术存在的实际问题,本文从医学文本语义检索、医学图像语义标注、基于语义分析的诊断文本生成三个方面进行了研究,提出了相应的语义建模和语义信息处理方法,论文的主要研究内容及取得的创新性成果如下: (1)在医学文本语义信息处理方面,提出了一种将隐含语义分析与树模型相融合的LSA-tree模型。利用该模型可以对具有半结构的文本病历实现从字面语义到隐含语义的综合提取。这种方法首先利用语义窗口对文本进行分割,之后再将窗中词划分为几个子树,然后计算子树中核心词与相关词之间的字面语义参数,最后通过LSA在隐含语义空间中的映射,提取出核心词之间的关联性。通过实验可以证明,对文本病例采用基于LSA-tree模型的语义检索系统,由于LSA-tree模型更加准确和全面地表达了文本病例的语义信息,因此不仅简化了原LSA模型复杂度并且实现了医学专业词的语义消歧(多词一义),从而提高了检索精度。 (2)在医学图像语义信息处理方面,提出了一种基于LDA-tree模型的X线相干散射图像语义标注方法。针对X线相干散射图像中存在的可识别特征较少、图像抽象本体、图像特征互扰,首先提出一种基于树结构的图像分解方法,利用这一方法图像被分解成含有图像语义特征的区域和片段(子图),之后在这些子图中提取了图像的形态学特征、光度学特征以及拓扑学特征,并对图像的能量分布曲线和拓扑结构信息进行了量化编码。进一步地,为了跨越语义鸿沟实现图像语义的文本标注,本文引入了LDA模型的参数估计和变分推理过程,并利用图形词袋将图像树模型与LDA模型进行了联合。通过实验可以证明,采用基于LDA-tree模型的语义标注方法实现了对X线相干散射图像的图像语义标注,并且LDA-tree语义标注方法的匹配准确度要优于基于PLSA的语义标注方法,其对于X线相干散射的成像差异、噪声和图像特征互扰等影响因素也有较好的抑制作用。 (3)在医学语义文本生成和辅助诊断方面,提出了一种用于生成医学图像诊断意见的LDA-LSA-tree模型。在分析医学影像报告文本特点的基础之上,针对LSA-tree模型处理医学影像报告可能存在的语义信息提取不够完备的问题,在字面语义层通过修正平均距离来获得词的上下文位置信息并对停用词进行语义信息统计;为了实现对病症在内容层面上的推理过程,提出了一种基于LSA的K中心内容聚类分析法对医学影像报告文本进行聚类和权值预置,并将文本的内容聚类作为LSA-tree模型的中间语义层。在对自然语义生成技术的研究基础之上,根据自然语言生成系统构造和生成本文过程对语义信息的需求,提出了用于自然语言生成的LDA-LSA-tree模型,用从主题内容到词之间的映射弥补了LSA-tree在语义推理上的欠缺,从而符合自然语言生成系统在内容规划建模方面对“结构构造”和“内容确定”的双重要求。推理部分采用了“关联-加权”的方案,引入词频-逆序文档频率加权法,实现在平滑LDA模型的Gibbs抽取算法过程中进行语义复合加权。通过实验可以证明,目前常见的关键词匹配模型生成文本方法虽然简单易行,但其生成文本的语义匹配度和可读性很低,无法为医生诊断提供更多有价值信息,而本文提出的基于LDA-LSA-tree模型的NLG方法充分考虑到医学诊断报告的各种语义细节,生成结果也类似于人工批注的文本,并且由于提出的LDA-LSA-tree模型有较好的主题模型性能,因此其推理得到诊断信息的准确度也优于其他语义文本生成模型。 本文采用的文本病例、诊断报告等数据来自于XX肿瘤医院、X线相干散射成像数据来自于XX大学第三医院,每一组数据使用前均经过医学专家会诊审核。实验过程与目前临床实际采用的几种主要及较新的医学信息处理方法进行比较,并用医学专家评价和通用标准综合分析实验结果,可以验证本文方法和模型的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张军华;试论电视新闻的文本结构特征[J];广西师范学院学报(哲学社会科学版);2004年02期
2 薛翠芳,郭炳炎;汉语文本结构的自动分析[J];情报学报;2000年04期
3 李静月;李培峰;朱巧明;;一种改进的TFIDF网页关键词提取方法[J];计算机应用与软件;2011年05期
4 金艳;;手机短信的文本功能及特征分析[J];今传媒;2011年07期
5 魏丽霞;郑家恒;;基于网页文本结构的网页去重[J];计算机应用;2007年11期
6 陈燕敏;楼喜中;;一种基于集聚确定文本意向结构的方法[J];微计算机信息;2010年18期
7 朱荷香;曲维光;卢俊之;李素建;邵艳秋;;面向自动文摘的文本结构划分[J];南京大学学报(自然科学版);2008年02期
8 李丽娟;;敦煌写本临圹文研究[J];首都师范大学学报(社会科学版);2010年S1期
9 刘晓畅;;新闻的话语与话语的新闻——解读《作为话语的新闻》[J];湖北社会科学;2006年01期
10 陈翼;张计龙;宓詠;;一种跨领域的信息资源的描述标准——基于都柏林核心元数据的高校管理信息标准的研究与应用[J];情报学报;2008年03期
11 袁欣;米建荣;张晶;;英语新闻的文本结构和词汇特点[J];新闻爱好者;2009年16期
12 严励;王冠辉;;手机报的编写特点分析——以彩信模式的手机报为例[J];中国出版;2011年20期
13 张利,朱颖,吴国威;版面分割中文本区域最佳结构表示树的生成算法[J];中国图象图形学报;1998年07期
14 吴岩,李秀坤,王开铸;文章意义段划分的数学模型[J];哈尔滨工业大学学报;1998年06期
15 陈立强;张宜迁;;电视频道的话语特征及其文本结构[J];中国电视;2008年01期
16 徐福培,张炜;中文页面描述语言文本管理器的设计与实现[J];软件学报;1994年11期
17 陆汝钤;;自然语言对ALGOL68文本的影响[J];计算机科学;1980年02期
18 朱羽君,崔林;电视新闻调查节目的文本结构[J];现代传播;2004年06期
19 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期
20 王晓平;张亭亭;;阅读文本研究述评[J];宁波大学学报(教育科学版);2008年05期
中国重要会议论文全文数据库 前10条
1 段娅;;论社会学批评的人本主义——评析戈德曼和齐马对社会学批评的发展[A];福建省外国语文学会2008年年会论文集[C];2008年
2 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 坂井洋史;;记忆·历史·文本——与周立民君商榷[A];细读《随想录》[C];2008年
4 王应云;谭见初;;汉语韵文英译方法论[A];中国英汉语比较研究会第七次全国学术研讨会论文集[C];2006年
5 刘玲;周经野;罗慧慧;;基于XML的文本规划方法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
6 王冬梅;;文学性与文学翻译[A];中国英汉语比较研究会第七次全国学术研讨会论文集[C];2006年
7 周小甲;周庆利;;中文病历文本中时间信息自动标注[A];2011年浙江省医学会医学工程学分会第九届学术年会论文汇编[C];2011年
8 杨艳;李巍;玄萍;;数字图书馆中基于Ontology的文本模型[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
9 陈炯;;立法语言的规范与创新[A];修辞学新视野——汉语修辞与汉文化学术研讨会论文集[C];2004年
10 孟祥荣;;石碣、太尉及其它——漫议《水浒传》的叙事结构与主旨[A];水浒争鸣(第十一辑)[C];2009年
中国博士学位论文全文数据库 前10条
1 王丹丹;森佩尔三个文本的形式原则比较研究[D];南京大学;2013年
2 温有奎;基于语义挖掘的文本知识元模型与应用研究[D];武汉大学;2010年
3 刘生良;《庄子》文学研究[D];陕西师范大学;2003年
4 朱朝勇;基于本体的知识库分类研究[D];中国科学技术大学;2013年
5 钱纪芳;和合翻译观照下的服装文字语言翻译[D];上海外国语大学;2008年
6 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
7 王媛;《今文尚书》文本结构研究[D];首都师范大学;2008年
8 贾学鸿;《庄子》结构艺术研究[D];华东师范大学;2007年
9 蒋斌;文本载体信息隐藏及相关技术研究[D];解放军信息工程大学;2008年
10 林佩璇;《圣经》典故研究:价值与缺失[D];福建师范大学;2009年
中国硕士学位论文全文数据库 前10条
1 华秀丽;文本抄袭检测方法研究[D];苏州大学;2012年
2 张年东;非连续性文本及其阅读和表达研究[D];西南大学;2014年
3 梁旭;评论文本的对立观点摘要的研究[D];北京交通大学;2013年
4 郑勤勤;面向专业领域的文本矩阵模型[D];华南理工大学;2012年
5 王来涛;网络短文本话题发现与趋势预测研究[D];北京工业大学;2013年
6 张娴;张洁小说语言音乐美试析[D];延边大学;2004年
7 乔宝辉;《德意志意识形态》第一章文本研究[D];黑龙江大学;2009年
8 史良;一种基于特征选择的层次化文本分类算法[D];哈尔滨工程大学;2013年
9 刘立胜;从读者接受的角度看文学翻译对等[D];重庆大学;2004年
10 庄明;装备发展战略研究信息化平台中汉语文本信息提取技术的研究[D];国防科学技术大学;2003年
中国重要报纸全文数据库 前10条
1 湖南省长沙铁路第一中学 黄福清;“多元解读”莫遭到误读[N];中国教育报;2006年
2 张磷;伦敦桥与翻译[N];中华读书报;2003年
3 ;采用国际标准管理办法[N];中国国门时报(中国出入境检验疫报);2002年
4 马洋;随心所欲建论坛[N];中国计算机报;2002年
5 程惠哲;《文学语言学》简评[N];光明日报;2005年
6 天津大学管理学院 张水波;FIDIC合同文本的发展与应用[N];国际商报;2007年
7 张稔穰;文学阅读与阐释的新视野[N];光明日报;2006年
8 刘绍艳;出口企业采用国际标准须关注的几个问题[N];宁波日报;2006年
9 冯光华;推动制度创新 奠定金融衍生产品市场坚实制度基础[N];中国证券报;2007年
10 本报记者 王玮;主旋律图书的模样[N];光明日报;2000年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978