收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于BERT嵌入和残差连接的中文电子病历命名实体识别研究

丁晶  
【摘要】:随着IT技术和医疗信息化的不断发展,电子病历(Electronic Medical Records,EMR)逐渐取代了纸质病历而被应用于众多医院,成为医院信息系统的核心。在医院的现代化管理当中,电子病历不仅起到了高效便利的作用,而且也是科研以及医疗的第一手资料。但是由于电子病历医疗数据规模庞大以及复杂,导致医疗文本内的有效信息并没有得到充分的挖掘。于是,作为自然语言处理技术之一的命名实体识别(Named Entity Recognition,NER)被引入其中。命名实体识别已被广泛的应用于信息抽取、智能问答、句法分析、机器翻译等领域。它成为了各领域人员关注的重点。虽然命名实体识别已经发展了很长一段时间,但是其识别的效果在部分领域仍然没有满足需求。其表现为,传统的命名实体识别方法太依赖于人工特征,需要较高人力和时间成本。有鉴于此,本文引入时下流行的深度学习序列标注模型——BiLSTM-CRF模型来作为基准模型,并基于此模型来进行改进,以便更好的应用在中文电子病历命名实体识别当中。本文研究内容主要围绕以下三个方面:(1)针对国内对于公开的中文电子病历数据严重缺乏和高质量中文电子病历标注数据稀少的情况,使目前常规的算法模型无法拥有很好的识别效果,以及传统的词向量表示为将字映射为单一向量而无法表征字的多义性所带来的问题。引入以BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型为基础,结合BiLSTM-CRF基准模型,提出了一种基于BERT-BiLSTM-CRF的中文电子病历命名实体识别模型,将海量无标注数据中的特征补充到网络中。通过对比实验证明该模型能够有效增强字的语义表示以及在小规模标注语料的情况下取得较好的识别效果。(2)结合预训练和迭代扩张卷积,提出了一种基于BBIC的中文电子病历命名实体识别模型。使得算法模型能够对BERT传过来的向量不仅仅聚焦全局特征也能够兼顾局部特征,并且对于扩张卷积来说,dilated width会随着层数的增加呈指数增长,参数数量是线性增加,而感受野却是指数增加的,如此可以快速覆盖到所有的输入数据。实验表明,在基于小规模标注语料的情况下结合预训练使得改进的模型能够更准确的获取文本特征信息并且识别效果上有了进一步的提升。(3)将残差连接引入BBIC模型,解决为增加表征能力而给网络模型在堆叠多层时出现的神经网络退化问题,进一步的去优化整个模型给中文电子病历的识别效果带来提升。实验结果表明,所提出的模型能够带来更好的中文电子病历命名实体识别效果。


知网文化
【相似文献】
中国期刊全文数据库 前18条
1 丁龙;文雯;林强;;基于预训练BERT字嵌入模型的领域实体识别[J];情报工程;2019年06期
2 王子牛;姜猛;高建瓴;陈娅先;;基于BERT的中文命名实体识别方法[J];计算机科学;2019年S2期
3 ;阿里健康拿下中文电子病历实体识别全国冠军[J];科技新时代;2018年04期
4 岳一峰;黄蔚;任祥辉;;一种基于BERT的自动文本摘要模型构建方法[J];计算机与现代化;2020年01期
5 SCOTT ADAMS;;DIL BERT[J];二十一世纪商业评论;2016年04期
6 蒋志鹏;赵芳芳;关毅;杨锦锋;;面向中文电子病历的词法语料标注研究[J];高技术通讯;2014年06期
7 SCOTT ADAMS;;DLL BERT[J];二十一世纪商业评论;2015年07期
8 张立邦;关毅;杨锦峰;;基于无监督学习的中文电子病历分词[J];智能计算机与应用;2014年02期
9 SCOTT ADAMS;;DIL BERT[J];21世纪商业评论;2012年23期
10 ;国家卫生计生委印发电子病历应用管理规范(试行)[J];吉林医学信息;2017年02期
11 ;电子病历新规:住院电子病历保存不少于30年[J];吉林医学信息;2017年04期
12 李颖;;电子病历想说共享不容易 监管尚存在管理漏洞[J];吉林医学信息;2017年11期
13 耿美;;电子病历建设研究[J];科技档案;2011年03期
14 刘辉;徐乐勤;陈少玫;;厦门市中医门诊电子病历云的建设与应用[J];中国卫生信息管理杂志;2019年06期
15 ;国家卫健委发布电子病历应用评价新要求[J];医学信息学杂志;2018年12期
16 吴超;;电子病历使用中存在的问题及对策研析讨论[J];信息与电脑(理论版);2019年02期
17 孙慧子;;电子病历实施过程中的法律风险及应对策略研究[J];齐齐哈尔医学院学报;2018年23期
18 李仁歌;傅小玲;;精细化管理的电子病历对病案管理的促进作用[J];世界最新医学信息文摘;2019年07期
中国重要会议论文全文数据库 前10条
1 汤霞;;电子病历在病案管理中的优势与发展趋势[A];2018年教师教育能力建设研究专题研讨会论文集[C];2018年
2 李萱;;强化电子病历的管理[A];第二十六届中国医院协会病案管理专业委员会学术会议论文集[C];2017年
3 赵思宇;都韧秋;;电子病历应用存在的问题及对策[A];第二十六届中国医院协会病案管理专业委员会学术会议论文集[C];2017年
4 刘云翾;杨焱棠;陆瑶;赵凯平;周鑫;;我国电子病历现状及对策[A];第二十六届中国医院协会病案管理专业委员会学术会议论文集[C];2017年
5 毛琦善;程东升;;电子病历在“三好一满意”活动中的实践与体会[A];山东省医学伦理学学会第八届学术年会论文集[C];2012年
6 刘强;曹磊;;优化初始聚类中心的电子病历聚类算法[A];中华医学会第二十一次全国医学信息学术会议论文汇编[C];2015年
7 杨柳;;电子病历在病案管理中的应用及问题[A];中华医学会第二十一次全国医学信息学术会议论文汇编[C];2015年
8 苏勇;;电子病历知识库建设及分析[A];中华医学会第二十一次全国医学信息学术会议论文汇编[C];2015年
9 丁中印;张新高;谷运麒;何仁德;彭华;王胜;;基于电子病历的医院信息平台应用[A];中华医学会第二十一次全国医学信息学术会议论文汇编[C];2015年
10 罗悦;严小英;温川飙;;浅析中医电子病历标准化[A];中华医学会第二十一次全国医学信息学术会议论文汇编[C];2015年
中国博士学位论文全文数据库 前10条
1 周阳;基于机器学习的医疗文本分析挖掘技术研究[D];北京交通大学;2019年
2 蒋志鹏;中文电子病历的词法和句法分析研究[D];哈尔滨工业大学;2017年
3 李哲;医疗机构电子病历长期保存的风险防范研究[D];郑州大学;2019年
4 生慧;大数据背景下中医电子病历关键问题研究[D];山东中医药大学;2017年
5 张佳玥;电子病历检索中时序语义相似度研究[D];北京邮电大学;2018年
6 罗小楠;电子病历系统的研究:信息录入与质量监控电子化实现[D];第四军医大学;2005年
7 李广曦;适用于脾虚证数据采集的完全结构化电子病历的构建[D];广州中医药大学;2005年
8 李昊旻;电子病历的标准化结构化方法研究及实践[D];浙江大学;2007年
9 栗伟;电子病历文本挖掘关键算法研究[D];东北大学;2014年
10 魏泉;基于本体的电子病历研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 丁晶;基于BERT嵌入和残差连接的中文电子病历命名实体识别研究[D];浙江工商大学;2019年
2 曲春燕;中文电子病历命名实体识别研究[D];哈尔滨工业大学;2015年
3 程健一;中文电子病历实体关系抽取研究[D];哈尔滨工业大学;2016年
4 赵芳芳;面向中文电子病历的词性标注技术研究[D];哈尔滨工业大学;2014年
5 杨晨浩;基于深度学习的中文电子病历实体修饰与关系抽取研究及算法平台开发[D];哈尔滨工业大学;2016年
6 元成;基于BERT的保险领域问答系统的研究与实现[D];北方民族大学;2020年
7 王楠禔;基于BERT改进的文本表示模型研究[D];西南大学;2019年
8 杨彬;基于BERT词向量和Attention-CNN的智能司法研究[D];大连理工大学;2019年
9 张建;电子病历数据分析系统的设计与实现[D];河南大学;2019年
10 祖木然提古丽·库尔班;基于神经网络的电子病历实体识别[D];新疆大学;2019年
中国重要报纸全文数据库 前10条
1 张思玮;电子病历:光明之路亦有坎坷[N];科学时报;2011年
2 记者 张启民;赤峰学院附属医院成为自治区首家电子病历高级别医院[N];赤峰日报;2019年
3 记者 刘良龙;苏忠阳委员:建立粤港澳大湾区统一电子病历[N];深圳特区报;2020年
4 首席记者 姚常房;电子病历分级评价标准明确[N];健康报;2018年
5 本报记者 李禾;电子病历:要便捷更要安全[N];科技日报;2018年
6 罗志华;电子病历模块化风险不容忽视[N];中国人口报;2019年
7 东莞时报记者 李春燕 黄月 覃志杰 庄嘉颖;推进区域电子病历共享平台建设 今年实现电子健康码“一码通用”[N];东莞日报;2019年
8 秋实 医生;电子病历时代要防范新风险[N];健康报;2019年
9 唐传艳;普及电子病历应一步跨过多道门槛[N];嘉兴日报;2019年
10 罗志华;普及电子病历应“一步跨过多门槛”[N];宁波日报;2019年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978