收藏本站
《复旦大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于自然语言处理技术的循证医学信息提取研究

卢延鑫  
【摘要】:背景:流行病学是研究人类致病因素的科学。生物医学研究文献中有很多流行病学研究成果,但是这些信息并不能直接使用计算机进行分析。传统上,循证医学研究依靠人工阅读的方式从流行病学研究文献中提取信息,但是这种方式费时费力,难以应对海量的数据。为了设计出能够进行自动信息提取的系统,以用于建立循证医学研究知识库,本课题开发了基于机器学习和基于规则的自动信息提取系统。 方法:本文研究出两种自动信息提取系统,从生物医学文献中提取致病因素和疾病信息。在研究初期,课题开发出DEEL系统(用于从生物医学文献中提取致病因素)。该系统由一个自然语言处理引擎和一个基于规则的文本分类器构成,用于从流行病学文献中自动提取致病因素相关的信息。之后的研究中,本课题又开发出另一个系统,它也由两部分组成,第一部分使用一个自然语言引擎来标识出所有的名词短语,并收集该名词短语的语义等信息。第二部分是一个基于机器学习的文本分类器,利用从自然语言处理引擎中获取的信息,它能够标识出三类术语(名词短语):致病因素、疾病以及不相关的短语。在该系统中,本课题应用了四种算法:朴素贝叶斯算法、决策树算法、支持向量机算法和逻辑回归算法。并且比较了这四种算法在不同特征(如相邻的单词及其语义类型)上的结果。 结果: 1.为了评估DEEL系统,我们将由流行病学专家人工注解的美国流行病学期刊中的文献输入该系统,评估发现最好的结果F-measure是64.6%,精确率和召回率分别为61.0%和68.8%。然后进一步分析了致病因素词项,结果显示尽管UMLS有着较好的语义分类,但是更适合致病因素词项的语义分类仍然是迫切需要的。 2.为了评估基于机器学习的文本分类器,我们将机器学习分类器的结果与人工注解的结果进行对比,评估显示基于机器学习文本分类器提取致病因索相关术语(名词短语)最好的F-measure为82.0%,精确率和召回率分别为83.0%和81.0%。该分类器提取疾病相关术语最好的(?)-measure为70.0%,精确率和召回率分别为75.0%和65.0%。 结论:本研究开发出两个系统从生物医学文献中自动提取致病因素和疾病相关词项,分别是基于规则的文本分类器和基于机器学习的文本分类器。评估结果证实基于机器学习的文本分类器优于基于规则的分类系统。该方法对于从流行病学研究文献中自动提取循证医学研究的证据有很大的帮助。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:R318.0;TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 黄利辉;;文本挖掘在生物学中的应用[J];医学信息学杂志;2006年03期
2 姬长青;;浅谈药物不良反应[J];中国中医药现代远程教育;2010年03期
3 顾晴雯;蒋式勤;;小波分析在心磁信号辅助诊断中的应用[J];现代科学仪器;2007年06期
4 刘耀;;中医脉象数理量化创新方法研究[J];中国中医药信息杂志;2009年02期
5 王志飞;谢雁鸣;王永炎;;正则表达式在上市中药文献信息提取中的应用[J];中国中药杂志;2011年20期
6 张世红;胡佳佳;宋继华;刘会霞;琚文胜;;网络环境下的自然语言检索[J];医学情报工作;2005年06期
7 孔晓风;李莹;李昊旻;吕旭东;;基于自然语言处理技术的消化科内窥镜检查报告的结构化[J];中国医疗器械杂志;2008年05期
8 罗春荣;;短时记忆信息提取的研究[J];心理科学进展;1986年02期
9 刘炽;马斌荣;;美国第十一届SCAMC论文概述[J];中国医学物理学杂志;1988年03期
10 吕婷;姜友好;;文本挖掘在生物医学领域中的应用及其系统工具[J];中华医学图书情报杂志;2010年04期
中国重要会议论文全文数据库 前10条
1 许勇;宋柔;;基于百科词典的知识获取系统的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
2 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
3 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 邢莉新;许惠平;;卫星遥感数据信息提取新方法研究[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
6 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
7 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 彭天强;邵美珍;;基于神经网络的K-L变换方法研究[A];中国图象图形学会第十届全国图像图形学术会议(CIG’2001)和第一届全国虚拟现实技术研讨会(CVR’2001)论文集[C];2001年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 陈永清 颜廷杰;金属矿产快速评价预测系统完成[N];地质勘查导报;2006年
4 邱阳;基于信息提取计算的路网动态交通分析技术[N];科技日报;2007年
5 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
6 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
7 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
8 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
9 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
10 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 吕苗荣;信息提取与矿山信息系统的研究开发[D];中南大学;2003年
3 刘亚岚;遥感影像群判读技术的试验研究[D];中国科学院研究生院(遥感应用研究所);2004年
4 姚琛;基于信息提取计算的动态交通数据分析及应用[D];西南交通大学;2011年
5 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
6 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
7 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
8 刘伟东;高光谱遥感土壤信息提取与挖掘研究[D];中国科学院研究生院(遥感应用研究所);2002年
9 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
10 刘顺喜;高光谱遥感土地利用信息提取技术研究[D];北京林业大学;2005年
中国硕士学位论文全文数据库 前10条
1 赵长领;基于XML的中间文档信息提取技术研究[D];山东大学;2005年
2 曹鲁慧;远程教育中基于语义Web的信息处理技术研究[D];山东大学;2005年
3 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
4 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
5 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
6 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
7 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
8 许勇;基于百科词典的知识获取系统的研究与实现[D];北京工业大学;2001年
9 张磊;基于Internet的智能信息挖掘系统建模及关键技术研究[D];西北工业大学;2003年
10 侯丽敏;基于网络的智能答疑系统的研究与实现[D];河南大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026