收藏本站
《华中科技大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

面向生物医学文本的疾病关系挖掘模型及算法研究

杨黎  
【摘要】:生物医学领域的文献记录展现了该领域内的大量成果和实验发现。生物医学文本挖掘技术作为研究热点之一,可以快速有效地在海量的文献中获取相关知识。生物医学文本挖掘技术包括信息检索、文本分类、命名实体识别、关系抽取、假设生成等。随着基因技术的飞速发展,人们迫切希望从分子水平认识各种疾病的发生机制。在生物医学领域的文献中针对疾病进行关系的挖掘并构建疾病网络,挖掘与疾病相关的隐藏信息,给生物医学领域的科学家提供假设生成的依据,对于人类的发展、疾病的预防以及新药的研制都有着重要的意义。首先在生物医学命名实体识别获得良好性能的基础上给出了疾病和其他实体的本体标注方法,然后对文本进行分类以后再标注,进而进行关系的抽取和假设生成,从而对疾病和其他实体的关系进行预测。 现有的生物医学命名实体识别方法将实体边界探测和语义标识任务在一个模型中完成,另外生物医学命名实体往往很长,相对单词级的特征而言,构建实体级的特征对于命名实体识别任务更加自然。因此,提出一种基于双层半马尔科夫条件随机场的实体识别方法,将任务划分成两个阶段来进行标记将是一个可行的解决方法。在第一阶段,命名实体和非实体被检测出来,分别标记为C和O。在第二阶段,命名实体被标记为具体的实体类别如蛋白质、DNA、RNA、Cell_line、Cell_type等。针对每一个阶段,挖掘了新的有用的特征。鉴于有些特征只作用于某一阶段,双层模型极大的减少了特征的维度。通过实验验证了算法的有效性,较之现有算法,基于双层半马尔科夫条件随机场的实体识别方法在JNLPBA2004语料集上达到了74.64%的F值。 针对生物医学文献中关于疾病的命名实体识别存在类型不明确、精度低的问题,提出了基于疾病本体的标注方法,使用标准词表对疾病概念进行标注和标准化。采用双层半马尔科夫条件随机场模型对疾病实体进行识别,包括在文本中的位置信息和标识。随后,通过计算疾病实体和疾病本体中概念的相似度对已识别的疾病进行标注。最后,疾病实体根据相似度分别被识别为疾病概念和疾病实例。该实验基于Arizona疾病语料集并取得了很好的实验结果。 研究了基于文本发现的疾病语义关系挖掘。首先对文本进行疾病本体和基因本体的标注,建立基于文本的描述疾病和基因功能关系的语义网络。其次,从网络中抽取相似的子图并由子图的相似度来推导疾病之间的关系。从MEDLINE中随机选取了初始语料集,该实验获得了较好的性能并能够发现疾病之间的潜在关系。 研究了关于疾病的假设生成问题。通过探索疾病与基因功能、药物实体之间的语义网络,抽取文本中与疾病有关的子语义网络,提取疾病与其他实体之间的语义关系。使用主题模型对相关实体进行语义扩展,并按照四类主题对文章进行分类,包括疾病与疾病,疾病与基因功能,药物与基因功能,以及疾病与药物。并在以上分类结果的基础上,根据句子级的概念共现和实体间的语义关联,以找出实体间隐含的关系。 通过上述方法构建的疾病网络具有较强的实用性,能够对疾病之间、疾病和基因、药物和基因、疾病和药物之间的假设生成进行预测,为科研人员进行临床验证提供依据。
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前4条
1 封二英;牛耘;魏欧;;基于大规模文本的蛋白质交互关系自动提取[J];计算机应用;2012年S1期
2 荣毅虹,梁战平;基于文献的发现[J];情报学报;2002年04期
3 袁芳;周艳红;王佳;;通过文本挖掘获取疾病相关功能信息[J];微计算机信息;2009年36期
4 郑海,林鸿飞,杨志豪,付建文;基于概念和关联扩充的文本标题分类机制[J];小型微型计算机系统;2005年05期
【共引文献】
中国期刊全文数据库 前10条
1 方纯洁;王波;罗杰;吴彦;;基于信息抽取的中医药文献知识发现[J];浙江中医药大学学报;2012年01期
2 秦长江;侯汉清;;知识图谱——信息管理与知识管理的新领域[J];大学图书馆学报;2009年01期
3 Wen Chen;Ze-Hui Yan;Yu-Ming Wang;Bao-Yan Xu;Guo-Hong Deng;;Genome-wide microarray-based analysis of miRNAs expression in patients with acute-onchronic liver failure[J];Hepatobiliary & Pancreatic Diseases International;2014年01期
4 吴伟伟;宫平;哈尼克孜;石晓雷;于丽娟;田月珍;田可川;;动物胚胎发育中的MicroRNAs研究进展[J];草食家畜;2014年01期
5 张燕军;韩志玲;张文广;李金泉;;骨骼肌发育及其相关miRNA表达机制的研究进展[J];中国畜牧兽医;2014年03期
6 钱宗杰;谢福生;;早期急性心肌梗死患者全血中microRNA-1的表达[J];蚌埠医学院学报;2014年05期
7 张铁菊;郑学军;;文献智能与文献引智[J];黑龙江科技信息;2011年35期
8 袁芳;王瑞春;管明祥;万学元;何国荣;周艳红;;基于文本挖掘与功能相似性的疾病基因预测[J];计算机工程;2011年04期
9 李志燕;黄水清;严文强;;非相关文献知识发现的算法模型与探讨[J];图书馆理论与实践;2007年05期
10 钟勇;裴颖皓;王俊;宫剑滨;江时森;;血清microRNA对心肌桥的诊断价值[J];中国动脉硬化杂志;2013年07期
中国重要会议论文全文数据库 前1条
1 李春竹;戚新明;任进;;miR-491-3p在MDR1介导的人肝癌多药耐药中的作用[A];2013年中国药学大会暨第十三届中国药师周论文集[C];2013年
中国博士学位论文全文数据库 前10条
1 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
2 王立荣;信号通路相关文献挖掘与分析方法研究[D];中国科学技术大学;2007年
3 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
4 游俊;面向知识发现的神经信息文献系统的设计与初步实现[D];华中科技大学;2007年
5 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
6 鄢文;microRNA-19促进人肺腺癌细胞株A549向间充质细胞转化[D];南方医科大学;2011年
7 王丹;人乳头瘤病毒16在宫颈癌整合作用的研究[D];北京协和医学院;2013年
8 王晨;葡萄microRNA及其靶基因的识别、鉴定及作用方式研究[D];南京农业大学;2012年
9 赵爱华;microRNA-125b的功能研究[D];中国人民解放军医学院;2011年
10 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
中国硕士学位论文全文数据库 前10条
1 王琳;网络环境下情报学的应用模式研究[D];天津师范大学;2004年
2 成鹏;基于语义Web的知识元集成模型研究[D];西安电子科技大学;2007年
3 李嵩;语言学文献标题的术语提取研究[D];山东大学;2007年
4 郝丽云;非相关文献知识发现的医学研究与实践[D];中国人民解放军军事医学科学院;2007年
5 卢宁;面向知识发现的知识关联揭示及其应用研究[D];南京理工大学;2007年
6 李志燕;汉语非相关文献知识发现的研究与系统实现[D];南京农业大学;2007年
7 王炜华;基于实体—属性框架的标题分析及应用[D];沈阳航空工业学院;2008年
8 陆才奇;面向生化网络的文献挖掘方法研究与系统集成[D];中国科学技术大学;2009年
9 张杰;基于多层CRFs的汉语介词短语识别研究[D];大连理工大学;2013年
10 黄俊;维吾尔语文本情感分析研究[D];新疆大学;2013年
【二级参考文献】
中国期刊全文数据库 前5条
1 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
2 唐楠;杨志豪;林鸿飞;李彦鹏;;基于多核学习的医学文献蛋白质关系抽取[J];计算机工程;2011年10期
3 战学刚,林鸿飞,姚天顺;中文文献的层次分类方法[J];中文信息学报;1999年06期
4 梁战平;情报学的新发展[J];情报学报;2001年02期
5 杨丽华;戴齐;杨占华;;文本分类技术研究[J];微计算机信息;2006年15期
【相似文献】
中国期刊全文数据库 前10条
1 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
2 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
3 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
4 李桂兰;余正涛;毛存礼;郭剑毅;侯波;线岩团;;旅游领域实体答案的抽取[J];广西师范大学学报(自然科学版);2009年01期
5 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
6 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
7 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
8 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
9 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
10 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
3 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
5 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
8 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 张祝玉;任飞亮;朱靖波;;基于条件随机场的中文命名实体识别特征比较研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 李治国;周俏丽;;在篇章中面向产品类的命名实体识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
3 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
5 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
6 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
7 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
8 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
9 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
10 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
中国硕士学位论文全文数据库 前10条
1 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
2 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
3 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
4 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
5 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
6 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
7 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
8 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
9 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
10 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026