收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于生物医学文献的知识发现方法研究

张国庆  
【摘要】: 文献挖掘是一种文本数据自动分析方法,涉及到数据挖掘、文本挖掘和自然语言处理等多个研究领域。作为一种从文献中提取、整合并发现知识的高效工具,能够快速处理大量文献并挖掘得到特定领域的知识。随着相关算法的引入与语料库的完善,文献挖掘的性能与可靠程度不断提高,因而在科学研究中得到越来越广泛的应用。 生物医学研究积累了大量的文献数据,其中记载了大量的不同类型的知识。另一方面,生物信息技术研究的目的是管理并分析生物医学实验得到的海量数据,以及提供预测性或者指导性结论。作为生物信息技术研究的一个新兴方向,文献挖掘技术以生物医学文献数据为分析对象,提取和整合散布于文本数据中的知识,从而实现展示并推理文献中隐含的新知识的目的。本文以PubMed数据为研究对象,开发并整合多种文献挖掘方法,提取蛋白质、疾病和化合物相关的知识,并加以整合后用于新知识的发现。主要研究内容如下: 1)识别文献数据中的实体,并映射到分子生物学数据库。文献中的实体识别是其他工作的基础。识别不同领域不同类型的实体所使用的方法各不相同,因而从生物医学文献中识别基因/蛋白质、疾病和化合物三类常见实体采用了不同的方法。利用基于统计的条件随机场方法,统计学习基因/蛋白质的命名特点与规律,从文献中识别出基因/蛋白质实体。利用基于词典的方法,从文献中提取出MeSH词典所描述的21类三级以下的疾病实体。同样,利用基于词典的方法从文献中提取出各类化合物实体。对于识别得到的基因/蛋白质实体,采用了分级映射方法,分别把实体映射到不同规范化程度的Entrez Gene数据库。按照与完备基因词典、中等基因词典和精简基因词典的匹配程度,把实体分为准确实体、可靠实体、相似实体和未知实体四部分。 2)制定实体关联规则,整合实体之间的关联,得到六类关联实体。文本中识别得到的三类实体之间存在六种关联:蛋白质-蛋白质、疾病-疾病、化合物-化合物、蛋白质-疾病、蛋白质-化合物和疾病-化合物。首先通过共出现频率方法得到存在关联的各类实体。然后对存在共出现实体的句子进行词性标注,进而迭代提取出四类共536个描述实体关联的关联动词列表。以关联动词列表为基础,构建实体关联规则库。文本数据与关联规则库匹配后,得到六类关联实体数据。此外讨论了六类关联实体可能表示的生物医学意义以及相应的处理策略。 3)基于实体关联数据构建相应的实体关联网络,并提供了两种网络分解方案来发现新的知识。以六类实体关联数据为基础,构建了6个简单实体关联网络。整合不同的简单实体关联网络后得到了2个杂合实体关联网络:分子相互作用网络与全关联网络。分析了8个实体关联网络的拓扑性质,并且把网络分解为连通子图、Hub子图和关联子图,从而得到存在间接关联的实体、活跃实体和一组关联实体构成的关联途径等新知识。 4)构建了基于文献挖掘的生物医学知识发现平台的原型系统。平台整合了文献挖掘中所需的第三方工具以及自行开发的工具,提供统一的访问接口和数据格式。该平台能够完成实体识别、实体关联挖掘和实体关联网络构建三类知识发现任务,并且提供与第三方图显示工具兼容的数据格式,满足实体关联网络以及子图的可视化需求。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 薛禾生!北京市100050;知识发现与数据挖掘[J];中国医院统计;2000年03期
2 薛禾生!100050北京市;知识发现与数据挖掘[J];中国医院统计;2000年04期
3 刘惠,邱天爽;知识发现及其在临床医学上的应用[J];生物医学工程学杂志;2004年04期
4 谢含;;数据挖掘在中医药文献研究中的应用[J];中医药信息;2005年06期
5 王立荣;冯焕清;;基于贝叶斯统计的生物医学文献挖掘[J];中国生物医学工程学报;2006年04期
6 谢含;;知识发现法对图书馆参考咨询工作的影响[J];医学信息学杂志;2009年08期
7 李力恒;;浅谈KDD技术在中医药领域的应用[J];黑龙江科技信息;2007年14期
8 佘侃侃;张蕾;;基于数据挖掘技术的方剂配伍规律研究[J];医学信息;2008年10期
9 佘侃侃;;数据挖掘技术在方剂配伍中的研究现状及研究方法[J];中国医药指南;2008年24期
10 李凌艳;李认书;孙鹤;;数据挖掘技术在中药研究中的应用[J];中草药;2010年05期
11 任娟莉;傅仁宇与《审视瑶函》[J];陕西中医学院学报;2003年05期
12 崔雷,侯跃芳,张晗;有关分子生物学的知识发现研究进展[J];医学情报工作;2004年03期
13 吴朝晖,封毅;数据库中知识发现在中医药领域的若干探索(Ⅰ)[J];中国中医药信息杂志;2005年10期
14 何玮;杨春华;;Arrowsmith在药物副作用预测研究中的应用探讨[J];医学信息学杂志;2006年06期
15 彭春艳;张晖;包玲玉;陈昌平;;基于生物医学文献的蛋白质关系发现[J];电脑知识与技术;2008年34期
16 张磊;张桂云;龙莉艳;;医学知识发现与创新的几种概念关系模式的初步研究[J];中国医院;2009年06期
17 陈云志;张军平;秦钟;王瑶瑶;;基于Arrowsmith探讨冬虫夏草与维生素D功效的潜在相关性[J];中华医学图书情报杂志;2010年12期
18 王学伟,瞿海斌,刘雪松,程翼宇;贝叶斯网络杂交学习算法及其在中医中的应用[J];浙江大学学报(工学版);2005年07期
19 刘耀;;中医脉象数理量化创新方法研究[J];中国中医药信息杂志;2009年02期
20 陆才奇;郑浩然;张敏;周宏;;面向生物医学文献挖掘的一种改进的贝叶斯算法[J];中国生物医学工程学报;2009年02期
中国重要会议论文全文数据库 前10条
1 杨光飞;党延忠;;不完美数据中的知识发现研究综述[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年
2 董伯儒;林少培;王永文;;工程建设MIS中的知识发现和深化[A];中国土木工程学会计算机应用分会第七届年会论文集[C];1999年
3 刘翔宇;陈文斌;王勇;付志红;;基于高速数字信号处理平台的瞬变电磁原型系统[A];重庆市电机工程学会2010年学术会议论文集[C];2010年
4 张世海;刘晓燕;涂庆;欧进萍;王光远;;知识发现及其在高层结构智能选型中应用[A];计算机技术在工程建设中的应用——第十二届全国工程建设计算机应用学术会议论文集[C];2004年
5 万家华;刘冰;江早;;知识发现中的可视化技术[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 赵荣珍;杨娟;黄显华;;粗糙集理论的故障知识发现及其工程应用模式研究[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
7 董伯儒;林少培;王永文;;工程建设MIS中的知识发现和深化[A];中国土木工程学会计算机应用分会第七届年会土木工程计算机应用文集[C];1999年
8 唐中实;辛宇;朱丽云;尹平;孔林;黄淑伟;;Web Image0.1版原型系统研制[A];中国地理信息系统协会第三次代表大会暨第七届年会论文集[C];2003年
9 段培俊;周东岱;;数据挖掘研究综述[A];2003年中国智能自动化会议论文集(下册)[C];2003年
10 孙向军;刘凯龙;;工程装备论证知识管理系统技术分析[A];'2008系统仿真技术及其应用学术会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 张国庆;基于生物医学文献的知识发现方法研究[D];华中科技大学;2006年
2 谢宗霞;太阳宁静区磁场流场特性知识发现的方法研究[D];哈尔滨工业大学;2010年
3 张云中;基于形式概念分析的Folksonomy知识发现研究[D];吉林大学;2012年
4 杨立;基于领域知识的知识发现研究[D];中国科学院研究生院(软件研究所);2005年
5 陈元;基于分类模型的知识发现过程研究[D];国防科学技术大学;2002年
6 李初民;基于网络管理数据库中性能数据的知识发现(KDD)研究[D];重庆大学;2001年
7 李刚;知识发现的图模型方法[D];中国科学院软件研究所;2001年
8 谢志鹏;基于概念格模型的知识发现研究[D];合肥工业大学;2001年
9 吴涛;构造性知识发现方法研究[D];安徽大学;2003年
10 刘刚;数据挖掘技术与分类算法研究[D];中国人民解放军信息工程大学;2004年
中国硕士学位论文全文数据库 前10条
1 徐娟娟;交往数据集中知识发现框架的研究与实现[D];北京交通大学;2007年
2 薛静;专家信息管理系统在CRM中的研究与应用——基于java技术的构架[D];西北工业大学;2001年
3 陈红叶;Web信息提取及知识发现方法研究[D];合肥工业大学;2002年
4 迟庆云;基于决策树的分类算法研究和应用[D];山东师范大学;2005年
5 王益玲;基于DCS实时信息的智能故障诊断系统的研究与设计[D];南京工业大学;2003年
6 李长源;关联规则挖掘算法研究[D];哈尔滨工程大学;2005年
7 郭国印;数据挖掘技术的研究及其在PLM中的应用[D];西北工业大学;2005年
8 谷宏群;数据挖掘中可视化方法研究[D];武汉大学;2005年
9 梁利莉;数据挖掘技术在CRM中的应用研究[D];首都经济贸易大学;2005年
10 刘娟;中药药对的量化分析与知识发现[D];成都中医药大学;2005年
中国重要报纸全文数据库 前10条
1 记者 薛冬 通讯员 杨淑芳;数字地球原型系统将应用于北京奥运[N];光明日报;2002年
2 向杰;我建成全球第一个“数字海洋”原型系统[N];科技日报;2008年
3 郑千里;把地球“装”在计算机里[N];地质勘查导报;2006年
4 杨谷;北京大学掌握主流CPU设计技术[N];光明日报;2007年
5 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
6 中国科学院计算技术研究所 刘毅勇 何雄 李金山 廖浩均 孟亮 邓柱中;空间数据挖掘:变数据为知识[N];计算机世界;2005年
7 胡虎;突出信息化贡献水平 处理好三个关系[N];人民邮电;2007年
8 郭建龙;人肉搜索助力救灾 谷歌本土化新图景[N];21世纪经济报道;2008年
9 陈志楠;挖掘“不为人知的艺术”[N];科技日报;2009年
10 王丽霞;主动参与国家支撑计划项目[N];中国交通报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978