收藏本站
《大连理工大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

面向生物医学领域的文本挖掘技术研究

杨志豪  
【摘要】: 当前,出版的生物医学文献呈指数级增长,成为一座巨大的知识宝库。由于生物医学文献绝大多数都是以文本方式存在,从这座宝库快速有效地进行文本挖掘,提取生物医学知识的需求变得非常迫切。生物医学文本挖掘主要依赖于自然语言处理技术和机器学习方法从海量生物医学文献中有效地找到所需信息、发现隐藏的生物医学知识。 本文首先介绍了文本挖掘技术及其应用,接着介绍了生物医学领域文本挖掘技术的当前研究现状以及本人在该领域所作的相关研究。 本文提出了一个基于改进编辑距离算法的生物实体识别方法,这是一种基于词典的方法:通过改进编辑距离算法提高识别的召回率,并采用POS扩展、利用上下文线索等语言知识以及前后缀词扩展、合并邻近实体等规则进一步提高性能。在JNLPBA2004测评语料上的实验表明其性能远远高于基于字符串完全匹配的词典方法(综合分类率F分别为68.48%和47.7%)。 当前流行的机器学习方法的生物实体识别性能还有很大的提升空间,本文提出了一个基于条件随机域(CRFs)与上下文线索的生物实体识别方法。该方法首先选取合适特征,使用条件随机域进行生物实体识别;同时充分利用语言学的知识,使用上下文中存在的三种启发式语法结构(上下文线索):括号对、启发式语法结构和交互词提示,根据其提供的实体及其类别信息进一步提高识别性能。在JNLPBA2004和BioCreative2004task 1A测评语料上的实验结果表明上下文线索的引入提高了性能三个百分点左右。 从生物医学文献中抽取蛋白质交互作用关系对蛋白质知识网络的建立、蛋白质关系的预测、新药的研制等均具有重要的意义。基于自然语言处理的系统通过分析语法结构进行关系抽取,能获得较高的准确性。本文提出了一个基于链接语法分析的蛋白质(基因)交互作用关系的抽取方法。该方法使用条件随机域(CRFs)与上下文线索结合的生物实体识别方法,再通过链接语法分析划分语法成分,从语法成分及其合理组合中抽取蛋白质(基因)交互作用关系。实验结果表明该方法的召回率以及综合分类率F指标都高于使用同一测试语料的其他系统。 基于机器学习和统计的方法可以获得较高的召回率,本文提出了一种基于支持向量机(SVM)的蛋白质交互作用关系抽取方法。该方法除了选取词项特征、关键词特征、实体距离特征以及链接特征等特征外,还利用链接语法分析方法可以获得较高准确率的特性,引入链接语法分析方法抽取结果特征,在损失较少关系抽取召回率性能的情况下,较大地提高了准确率,从而最终提高了综合分类率。实验结果表明该方法的召回率性能与使用同一测试语料的其他系统相比具有明显的优势,综合分类率F指标也高于其他系统。 海量的生物医学文献给应用文本挖掘技术进行隐含医学知识发现提供了前所未有的机会。本文提出了一个生物医学领域的假设生成方法,该方法对医学文献记录中的医学主题词MeSH及自由文本中的医学概念同时进行相关概念提取,弥补了当前研究只使用其中一个的不足。同时基于UMLS Knowledge Sources,进行基于概念的查询扩展,提高了相关记录的召回率,并通过语义过滤,降低了搜索空间。通过验证鱼油与雷诺氏病关联的实验表明该方法提高了获取相关概念的效果。
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 黄长伟;;自动文摘技术研究现状分析[J];中外企业家;2011年14期
2 刘一宁;;学术定义抽取研究综述[J];情报探索;2011年08期
3 陈阳;凌俊民;蒙圣光;;投诉数据智能挖掘分类管理系统[J];数字技术与应用;2011年06期
4 杨皓东;江凌;李国俊;;国内自然语言处理研究热点分析——基于共词分析[J];图书情报工作;2011年10期
5 史晓东;卢亚军;;央金藏文分词系统[J];中文信息学报;2011年04期
6 刘辉;;基于位置的特征项权重算法[J];中国新技术新产品;2011年14期
7 张海粟;马大明;邓智龙;;基于维基百科的语义知识库及其构建方法研究[J];计算机应用研究;2011年08期
8 ;Web 2.0下一步:电脑自动剖析信息[J];黄金时代;2009年03期
9 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
10 余传明;黄建秋;郭飞;;从客户评论中识别命名实体——基于最大熵模型的实现[J];现代图书情报技术;2011年05期
中国重要会议论文全文数据库 前10条
1 杨志豪;林鸿飞;;生物医学文献中的隐含知识发现[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 陈林;王晓华;李殿赟;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年
3 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
6 陈林;王晓华;李殿赟;文俊浩;;基于Web的自增模式文本挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
7 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
3 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
4 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
5 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
6 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
7 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
8 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
9 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
10 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
中国博士学位论文全文数据库 前10条
1 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
2 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
3 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
4 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
5 计峰;自然语言处理中序列标注模型的研究[D];复旦大学;2012年
6 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
7 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
8 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
9 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
10 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
中国硕士学位论文全文数据库 前10条
1 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
2 詹子鹏;基于文本挖掘的主题分类专家系统的设计和实现[D];安徽大学;2007年
3 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
4 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
5 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
6 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年
7 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
8 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
9 杨勇涛;WEB舆情观点挖掘关键技术研究[D];电子科技大学;2009年
10 高娟;基于K-means算法的文本聚类的研究与实现[D];江西理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026