收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于自然语言处理技术的循证医学信息提取研究

卢延鑫  
【摘要】:背景:流行病学是研究人类致病因素的科学。生物医学研究文献中有很多流行病学研究成果,但是这些信息并不能直接使用计算机进行分析。传统上,循证医学研究依靠人工阅读的方式从流行病学研究文献中提取信息,但是这种方式费时费力,难以应对海量的数据。为了设计出能够进行自动信息提取的系统,以用于建立循证医学研究知识库,本课题开发了基于机器学习和基于规则的自动信息提取系统。 方法:本文研究出两种自动信息提取系统,从生物医学文献中提取致病因素和疾病信息。在研究初期,课题开发出DEEL系统(用于从生物医学文献中提取致病因素)。该系统由一个自然语言处理引擎和一个基于规则的文本分类器构成,用于从流行病学文献中自动提取致病因素相关的信息。之后的研究中,本课题又开发出另一个系统,它也由两部分组成,第一部分使用一个自然语言引擎来标识出所有的名词短语,并收集该名词短语的语义等信息。第二部分是一个基于机器学习的文本分类器,利用从自然语言处理引擎中获取的信息,它能够标识出三类术语(名词短语):致病因素、疾病以及不相关的短语。在该系统中,本课题应用了四种算法:朴素贝叶斯算法、决策树算法、支持向量机算法和逻辑回归算法。并且比较了这四种算法在不同特征(如相邻的单词及其语义类型)上的结果。 结果: 1.为了评估DEEL系统,我们将由流行病学专家人工注解的美国流行病学期刊中的文献输入该系统,评估发现最好的结果F-measure是64.6%,精确率和召回率分别为61.0%和68.8%。然后进一步分析了致病因素词项,结果显示尽管UMLS有着较好的语义分类,但是更适合致病因素词项的语义分类仍然是迫切需要的。 2.为了评估基于机器学习的文本分类器,我们将机器学习分类器的结果与人工注解的结果进行对比,评估显示基于机器学习文本分类器提取致病因索相关术语(名词短语)最好的F-measure为82.0%,精确率和召回率分别为83.0%和81.0%。该分类器提取疾病相关术语最好的(?)-measure为70.0%,精确率和召回率分别为75.0%和65.0%。 结论:本研究开发出两个系统从生物医学文献中自动提取致病因素和疾病相关词项,分别是基于规则的文本分类器和基于机器学习的文本分类器。评估结果证实基于机器学习的文本分类器优于基于规则的分类系统。该方法对于从流行病学研究文献中自动提取循证医学研究的证据有很大的帮助。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘耀;;中医脉象数理量化创新方法研究[J];中国中医药信息杂志;2009年02期
2 张世红;胡佳佳;宋继华;刘会霞;琚文胜;;网络环境下的自然语言检索[J];医学情报工作;2005年06期
3 孔晓风;李莹;李昊旻;吕旭东;;基于自然语言处理技术的消化科内窥镜检查报告的结构化[J];中国医疗器械杂志;2008年05期
4 刘炽;马斌荣;;美国第十一届SCAMC论文概述[J];中国医学物理学杂志;1988年03期
5 吕婷;姜友好;;文本挖掘在生物医学领域中的应用及其系统工具[J];中华医学图书情报杂志;2010年04期
6 邹琛;;利用电子医疗记录自动挖掘药物不良反应信号[J];药物流行病学杂志;2011年02期
7 刘霖;;医学文献检索语言一体化研究现状及展望[J];中国中医药科技;2009年06期
8 李昊旻;段会龙;吕旭东;李莹;;医学语言处理技术及应用[J];中国数字医学;2008年11期
9 王闰强,胡铁军;中文文本自动分类研究进展[J];医学情报工作;2002年06期
10 李俊杰;;基于最大熵原理的医疗文本信息结构化[J];临床医学工程;2010年10期
11 吴明智;崔雷;;生物医学实体关系抽取的研究[J];中华医学图书情报杂志;2010年05期
12 刘耀;穗志方;周扬;章成志;王振国;;中医药本体构建研究[J];大学图书馆学报;2008年04期
13 崔雷;陈东滨;;国外医学信息学科研热点的文献计量学分析[J];医学信息学杂志;2007年02期
14 顾铮;;利用文本分类技术研究方剂分类[J];辽宁中医药大学学报;2010年02期
15 ;文本挖掘技术用于药物研究[J];广东药学院学报;2009年02期
16 王远航;刘皈阳;;药品不良反应自动化监测技术研究进展[J];中国药物警戒;2010年01期
17 施少敏;杨艳;魏宝刚;;NPOS最短路径分词实现方剂药物信息提取[J];计算机应用与软件;2010年09期
18 刘玉亭;;电子病历——医院信息化建设的核心[J];江苏卫生事业管理;2007年01期
19 杨志豪;洪莉;林鸿飞;李彦鹏;;基于支持向量机的生物医学文献蛋白质关系抽取[J];智能系统学报;2008年04期
20 王敏;李阳;孙晓北;许培扬;池慧;;2009年甲型H1N1流感国内外文献分析研究[J];医学研究杂志;2010年02期
中国重要会议论文全文数据库 前10条
1 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
2 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
4 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
8 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 杨丽鹏;林世平;;基于关联规则和自然语言处理技术的概念间非分类关系的抽取[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
3 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
4 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
5 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
6 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
7 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
8 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
9 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
10 方宁;基于认知的文本语境生成和度量研究[D];上海大学;2009年
中国硕士学位论文全文数据库 前10条
1 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
2 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
3 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
4 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
5 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
6 侯丽敏;基于网络的智能答疑系统的研究与实现[D];河南大学;2005年
7 崔昌利;俄语简单句述谓VP的模式化及自动识别[D];黑龙江大学;2005年
8 赵城利;基于Web的信息智能感知技术及应用[D];国防科学技术大学;2004年
9 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
10 巩晓婷;基于文本的信息隐藏技术研究[D];福州大学;2006年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978