收藏本站
《哈尔滨工业大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度学习的药名实体关系抽取

曾东火  
【摘要】:随着生命科学研究的发展与研究技术的进步,生物医学领域的相关文献呈现指数级别地增长。海量的医学文献通常是人为书写的自然语言并且以非结构化的形式存储。在这些文献中存在许多有价值的、丰富的潜在知识。其中,药名这个实体被广泛的生物医学研究者所关注,并且作为医学文献信息抽取的一个非常重要的载体。如果能够从非结构化的这些文献中抽取出结构化的、有组织的药物信息,那么不仅能够扩充现有的药物词典等知识库,而且能够给医学研究人员及其相关领域研究者提供服务,甚至可以促进对于工业制药的发展。由此,生物医学领域中的信息抽取成为了目前一个重要的科研课题。从生物医学文本中抽取信息,有很多种类,比如药物识别和药物与药物的关系抽取。即从非结构化的生物文本中对药名进行自动地识别,然后对识别出的药名判断一对药物是否存在相互作用的关系。本文基于这两个问题而展开,其中后面两个工作应用深度学习的方法。研究的主要内容包括如下:基于药名扩充词典与CRF方法的药名识别。人工构建的现有药名词典有利于识别药名,可以促进基于机器学习方法的药名识别性能,但是药名词典中的实体量非常有限,新出现的药物得不到及时的更新,使得利用药名词典存在局限性。本文用半监督学习的方法,通过大规模非结构化的生物文本来扩大现有的药名词典Drug Bank,从而促进条件随机场(CRF)方法的识别性能。实验表明,扩充的词典有效地提升了药名识别的性能。基于深度学习中LSTM方法和CRF模型结合的药名识别。在药名识别任务中,目前最佳性能是基于CRF等机器学习方法,这些方法非常依赖于人工构建的复杂特征和生物领域的知识。为此,本文采用双向的LSTM和CRF构建的模型,只以基于字符级的特征与词向量的链接向量作为模型输入,输出识别的句子标签序列。基于深度学习中卷积神经网络(CNN)的药物关系抽取。目前药物关系抽取性能最佳方法是基于支持向量机的方法,然而它需要人工构建复杂的特征还需借助自然语言工具处理这些特征。为此,本文使用采用CNN方法,避免了复杂的特征工程,我们只以词向量和位置向量作为输入。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 杨寿勋;《统计自然语言处理基础》评介[J];外语教学与研究;2001年04期
2 ;《统计自然语言处理基础》[J];中文信息学报;2005年03期
3 徐继伟;;自然语言处理技术在生物信息学中的应用(英文)[J];生物信息学;2006年01期
4 王挺;麦范金;刘忠;;自然语言处理及其应用前景的研究[J];桂林航天工业高等专科学校学报;2006年04期
5 ;第二届全国少数民族青年自然语言处理学术研讨会召开[J];模式识别与人工智能;2008年05期
6 高精鍊;萧国政;姬东鸿;;手持嵌入式系统应用中的自然语言处理关键技术[J];长江学术;2009年02期
7 冯志伟;;自然语言处理中的一些宏观问题之我见[J];中国外语;2009年05期
8 曹佩;;论自然语言处理[J];信息与电脑(理论版);2010年05期
9 邵泽国;;语言科学发展的新分支——自然语言处理[J];电子科技;2013年05期
10 李霞;;面向本科阶段开设的“自然语言处理”课程教学研究[J];福建电脑;2013年07期
中国重要会议论文全文数据库 前10条
1 马颖华;苏贵洋;;基于概念的自然语言处理[A];第一届学生计算语言学研讨会论文集[C];2002年
2 李生;;哈工大自然语言处理研究进展[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 ;哈尔滨工业大学智能技术与自然语言处理研究室简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
4 冯志伟;;自然语言处理中的理性主义和经验主义[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
6 李文;程华良;彭耀;温明杰;肖威清;张陈斌;陈宗海;;自然语言处理云平台[A];系统仿真技术及其应用学术论文集(第15卷)[C];2014年
7 徐超;毕玉德;;面向自然语言处理的韩国语隐喻知识库构建研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 ;SWCL-2006组织机构[A];第三届学生计算语言学研讨会论文集[C];2006年
10 张玥杰;徐智婷;钱晶;张涛;;自然语言处理中专名识别方法的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国重要报纸全文数据库 前10条
1 IBM大数据专家 James Kobielus 范范 编译;机器能识别出讽刺含义吗?[N];网络世界;2014年
2 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
3 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
4 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
5 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
6 ;李葆嘉:语言科技新思维的倡导者[N];大众科技报;2008年
7 易水;IT新词集锦(420)[N];计算机世界;2004年
8 实习生 刑天鸽;机器人能听懂我们说话吗?[N];科技日报;2012年
9 本报记者 陈巍巍;提升服务 从非结构化数据开始[N];计算机世界;2013年
10 本报记者 金小鹿;让非结构化数据动起来[N];中国计算机报;2012年
中国博士学位论文全文数据库 前10条
1 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
2 鲁松;自然语言处理中词相关性知识无导获取和均衡分类器构建[D];中国科学院研究生院(计算技术研究所);2001年
3 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
4 王燚;基于场景化知识表示的自然语言处理及其在自动文本校对中的应用[D];西南交通大学;2005年
5 计峰;自然语言处理中序列标注模型的研究[D];复旦大学;2012年
6 郭江;基于分布表示的跨语言跨任务自然语言分析[D];哈尔滨工业大学;2017年
7 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
8 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
9 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
10 李浩;新产品非结构化需求转换、概念测试与初始配置方法研究[D];重庆大学;2012年
中国硕士学位论文全文数据库 前10条
1 曾东火;基于深度学习的药名实体关系抽取[D];哈尔滨工业大学;2017年
2 于卫欣;基于网络语义资源的越南语新闻文本词汇链构建研究[D];昆明理工大学;2015年
3 张宗峰;微博热点事件跟踪与视觉总结方法研究与实现[D];西南交通大学;2015年
4 郝丹;结合NLP技术的汉语学习系统设计与实现[D];华中师范大学;2015年
5 郝帅;基于词典扩增和修饰结构的文本情感识别研究[D];南昌大学;2015年
6 蒋宗进;基于最大熵酒店评论分类系统的设计与实现[D];北京邮电大学;2015年
7 王九硕;基于微博文本的情绪诱因分析方法研究[D];河北科技大学;2015年
8 吴畏;对联的认知研究及其计算机实现[D];成都理工大学;2015年
9 胡松;基于功能语义和过程需求的服务发现方法研究[D];浙江工商大学;2015年
10 刘桐仁;自然语言处理平台化软件的设计与实现[D];东南大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026