收藏本站
收藏 | 论文排版

基于生物医学领域知识增强的实体识别和关系抽取研究

杨光  
【摘要】:各类医学文献,包括临床记录、论文研究等,数据急剧增长。以Pub Med数据库为例,其中收录的文献数量每年以指数级的速度增长。研究者需要一直跟进自己领域的研究动态,临床医生能获得的病人的生理和遗传数据会越来越多,如何能快速地从非结构化文本中获取结构化易于查询和关联的数据成为了生命科学研究和精准医学的热点和难点。使用自然语言处理技术处理生物医学文献的历史由来已久。然而当前对于生物医学领域的实体识别和关系抽取的研究仍存在着很多问题:(1)缺少连通的多实体关系类型的知识库;(2)生物医学术语存在重复有歧义的缩写,缺少先验知识识别一些没有明显语义关系的实体对;(3)缺少一站式的生物医学知识挖掘平台。基于上述问题,本文从构建知识图谱和使用该知识图谱进行知识增强的预训练等方面深入研究。本文的主要工作和贡献总结如下:对于缺少连通的多实体关系类型的知识图谱的问题,本文工作主要是整合17个高质量的生命科学数据库,并将它们规范化。并且提出一个针对生物医学知识图谱特性的实体对齐模型MAGNN,使用本文构造的实体对齐数据集验证了算法的有效性。最终得到一个含有8类实体节点和17种相互作用关系边的知识图谱,总共含有108047个节点和4469414条边。其中实体类型包括基因、表型、疾病、药物、通路、细胞组成、生化反应和分子功能。对于生物医学术语存在重复有歧义的缩写,存在一些没有明显语义关系的问题。本文工作主要关注使用知识增强来提高预训练语言模型的上下文编码能力,从而提升命名实体识别和关系抽取的效果。本文提出了一个根据预训练语料从知识图谱中生成子图并将图上下文注入预训练的方法BMKG-BERT。实验证明BMKG-BERT模型在命名实体任务中,在全部八个数据集上均优于当前所有的基准模型。在关系抽取任务中在全部三个数据集上的结果都超过了当前所有的基准模型。证明了知识图谱增强的语言模型在命名实体识别和关系抽取上的巨大潜力。对于缺少一站式的生物医学知识挖掘平台的问题,本文设计并实现了一个生物医学文献结构化系统。将本文构建的生物医学知识图谱和提出的知识增强预训练语言模型应用于该系统。这样一个融合了多个生命科学数据库,实时更新生物医学文献的平台,不仅为生物医学科学研究提供参考而且还是临床精准医疗的基石。综上所述,本文针对生物医学领域知识挖掘方面存在的问题在构建知识图谱、知识增强的预训练语言模型等方向上进行了研究探索,并在多个公开数据集上验证了本文方法的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前16条
1 潘璀然;施维;薛均;王青华;王理;董建成;;生物医学命名实体识别研究现状及中文生物医学命名实体识别难点与意义综述[J];医学信息学杂志;2018年03期
2 刘哲;张文学;;基于乱序语言模型字嵌入的医疗命名实体识别方法分析[J];电子技术;2022年11期
3 李廷元;杨勇;;基于预训练语言模型的中文地址命名实体识别[J];现代计算机;2022年15期
4 李丽双;郭元凯;;基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J];中文信息学报;2018年01期
5 张智;张正国;;蛋白质相互作用的文本挖掘研究进展[J];中国生物医学工程学报;2008年05期
6 马瑞民;马民艳;;基于CRFs的多策略生物医学命名实体识别[J];齐齐哈尔大学学报(自然科学版);2011年01期
7 李丽双;何红磊;刘珊珊;黄德根;;基于词表示方法的生物医学命名实体识别[J];小型微型计算机系统;2016年02期
8 张向喆;王明辉;赵洪波;王起山;潘玉春;;生物医学文本中命名实体识别研究[J];上海交通大学学报(农业科学版);2010年02期
9 胡俊锋;陈蓉;陈源;陈浩;于中华;;一种松耦合的生物医学命名实体识别算法[J];计算机应用;2007年11期
10 赵平;孙连英;万莹;葛娜;;基于BERT+BiLSTM+CRF的中文景点命名实体识别[J];计算机系统应用;2020年06期
11 马瑞民;马民艳;王浩畅;;基于分类器串联融合的生物医学命名实体识别[J];大庆石油学院学报;2011年02期
12 彭春艳;张晖;包玲玉;陈昌平;;基于生物医学文献的蛋白质关系发现[J];电脑知识与技术;2008年34期
13 张宁豫;谢辛;陈想;邓淑敏;叶宏彬;陈华钧;;基于知识协同微调的低资源知识图谱补全方法[J];软件学报;2022年10期
14 阎志刚;李成城;林民;;融合知识图谱信息的命名实体识别方法[J];山西师范大学学报(自然科学版);2021年01期
15 崔雷;;生物医学文本挖掘:步骤与工具[J];中华医学图书情报杂志;2017年03期
16 王馨钥;苏静静;;刍议“生物医学作为文化”的研究进路——兼论《作为文化的生物医学》[J];科学与社会;2022年04期
中国重要会议论文全文数据库 前20条
1 Philip Bielby;;《生物医学研究中的行为能力和脆弱性》[A];生命伦理学通讯(2009年第1期)[C];2009年
2 杜云祥;张晓梅;王国庆;陈建青;雷春炳;刘金玉;;生物医学文献数字化建设的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
3 钱庆;吴思竹;;基于知识组织系统的生物医学文本挖掘研究[A];中华医学会第二十一次全国医学信息学术会议论文汇编[C];2015年
4 张其清;梁屹;;纳米技术在生物医学中的应用[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(下册)[C];2002年
5 查悦明;陀伟为;王卓;张刚平;黄耀熊;;基于Vision Builder AI的生物医学图像智能化自动处理分析[A];广东省生物物理学会2013年学术研讨会论文集[C];2013年
6 张德添;汪宝珍;杨怡;李永刚;张学敏;徐国嘉;刘平;;电镜X射线微区分析技术及其在生物医学研究中的应用[A];中国分析测试协会科学技术奖发展回顾[C];2015年
7 李秀普;;生物医学论文的写作与编辑[A];2014浙江省医学会医学遗传学学术年会论文汇编[C];2014年
8 鲁林荣;;中西融合-培养生物医学创新人才[A];第十三届全国免疫学学术大会分会场交流报告[C];2018年
9 张宁;徐远旭;杨帆;廖亚玲;姬军生;;大数据时代的生物医学研究[A];中华医学会第十四次全国医学科学研究管理学学术会议暨2014第五届全国医学科研管理论坛论文集[C];2014年
10 颜贤忠;;核磁共振技术在生物医学研究中的应用[A];核磁共振技术及应用研讨会论文集[C];2014年
11 郑俊鹏;王春儒;舒春英;;碳纳米材料在生物医学领域的应用基础研究[A];中国化学会第27届学术年会第04分会场摘要集[C];2010年
12 ;流式细胞术在生物医学领域中的应用进展[A];浙江省免疫学会第六次学术研讨会论文汇编[C];2007年
13 周育丞;郑哲;林佳瑞;杨梓艺;陆新征;;面向智能审图的规范条文命名实体识别[A];第七届全国BIM学术会议论文集[C];2021年
14 钟金宏;韩丽君;李子腾;;政治学文本的命名实体识别与可视化研究[A];第十五届(2020)中国管理学年会论文集[C];2020年
15 徐建;阮国庆;李晓冬;吴蔚;王鑫鹏;;基于迁移学习的小样本军事文本命名实体识别[A];第九届中国指挥控制大会论文集[C];2021年
16 雷霆;王孟轩;王月;杜渂;;口语化要素识别算法在公安警情分析系统中的研究与应用[A];第八届中国指挥控制大会论文集[C];2020年
17 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
18 李治国;周俏丽;;在篇章中面向产品类的命名实体识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
19 孟坤;;太赫兹光谱成像仪样机研制及其在生物医学中的应用[A];中国工程物理研究院科技年报(2014年版)[C];2014年
20 于江;赵安全;;关于《内经》中心理情志调摄之我见[A];中国中西医结合学会第七届精神疾病学术讨论会论文汇编[C];2002年
中国博士学位论文全文数据库 前20条
1 董淼;面向胃癌药物重定位的生物医学知识图谱构建与应用研究[D];中国医科大学;2022年
2 孙聪;面向生物医学文献的化学物蛋白质关系抽取研究[D];大连理工大学;2021年
3 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
4 孙承杰;基于判别式模型的生物医学文本挖掘相关问题研究[D];哈尔滨工业大学;2008年
5 贾宁宁;面向知识图谱扩充的知识获取关键技术研究[D];北京邮电大学;2021年
6 赵迪;生物医学文本表示与挖掘关键技术研究[D];大连理工大学;2021年
7 王健;面向生物医学领域的信息抽取关键技术研究[D];大连理工大学;2014年
8 张益嘉;生物医学领域的信息抽取与复合物识别研究[D];大连理工大学;2014年
9 李正光;基于语义增强的生物医学文本挖掘研究[D];大连理工大学;2021年
10 马小蕾;基于语义增强的生物医学文本信息抽取方法研究[D];吉林大学;2022年
11 申晨;生物医学事件及其触发词检测研究[D];大连理工大学;2021年
12 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
13 刘丹阳;结合知识图谱的个性化新闻推荐系统[D];中国科学技术大学;2022年
14 朱署光;基于深度学习的结构化数据问答方法研究[D];北京邮电大学;2020年
15 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
16 黄金晶;事历型知识图谱管理关键技术研究[D];苏州大学;2020年
17 王越群;基于知识图谱的深度推荐系统研究[D];吉林大学;2022年
18 付瑞吉;开放域命名实体识别及其层次化类别获取[D];哈尔滨工业大学;2014年
19 郭俊飞;基于可调语言模型的机器翻译[D];武汉大学;2015年
20 陈志刚;英语考试自动答题技术的研究[D];中国科学技术大学;2018年
中国硕士学位论文全文数据库 前20条
1 杨光;基于生物医学领域知识增强的实体识别和关系抽取研究[D];华东师范大学;2022年
2 冯一展;基于深度学习的长城知识图谱构建[D];华北电力大学(北京);2022年
3 胡滨;面向生物医学文献挖掘领域的预训练语言模型研究[D];四川大学;2021年
4 蔡晓雅;基于深度神经网络的生物医学命名实体识别方法研究[D];山东师范大学;2022年
5 冯靖焜;面向生物医学领域的篇章关系抽取算法研究[D];大连理工大学;2020年
6 崔文星;基于多源的医疗商业知识图谱构建研究与实现[D];北京交通大学;2020年
7 陈鹏;面向生物医学领域的命名实体识别技术研究[D];大连理工大学;2020年
8 詹飞;基于多任务学习的生物医学命名实体识别算法研究[D];安徽大学;2021年
9 石广利;基于知识图谱的智能问答系统的研究与实现[D];中国地质大学(北京);2021年
10 范文婷;生物医学领域的命名实体识别和标准化[D];大连理工大学;2013年
11 张文豪;基于大豆育种语料的知识图谱构建[D];山东大学;2021年
12 嵇晨;基于知识图谱的非公经济实体隐藏关系挖掘技术研究及实现[D];中国电子科技集团公司电子科学研究院;2022年
13 何红磊;基于词表示方法的生物医学命名实体识别[D];大连理工大学;2015年
14 李小亚;医学超声领域知识图谱的设计与实现[D];北京邮电大学;2021年
15 郭宇;面向电力安全作业实体关系抽取及图谱构建研究[D];昆明理工大学;2022年
16 张益广;基于知识图谱的网络用语语义分析研究[D];兰州交通大学;2021年
17 魏优;基于预训练语言模型的生物医学事件抽取方法研究[D];武汉科技大学;2020年
18 杨飘;基于语言模型嵌入的中文命名实体识别[D];武汉大学;2019年
19 张元俣;基于注意力机制的生物医学命名实体识别与关系抽取研究[D];云南大学;2020年
20 蔡晓玲;结合先验知识及注意力机制的生物医学实体识别和关系抽取[D];华南理工大学;2020年
中国重要报纸全文数据库 前20条
1 本报记者 顾泳;看看生物医学巨大的想象空间[N];解放日报;2020年
2 王方;美国新建大型生物医学机构[N];中国科学报;2022年
3 本报见习记者 王庆;生物医学遭遇大数据[N];中国科学报;2013年
4 李国炜;人体生物医学研究亟待立法[N];中国科学报;2012年
5 记者 李珩;专家:生物医学产业发展需新机制[N];重庆日报;2020年
6 赵熙熙;美将出台生物医学创新法案[N];中国科学报;2016年
7 本报记者 李惠钰 整理;生物医学“丑闻”引反思[N];中国科学报;2018年
8 本报记者 落楠;补齐短板 引导生物医学创新[N];中国医药报;2018年
9 本报记者 杨阳腾;深圳生物医学产业迈向高端[N];经济日报;2018年
10 孙玲;前瞻大数据时代生物医学[N];上海科技报;2018年
11 深圳特区报首席记者 孙锦;让前沿生物医学成果惠及更多患者[N];深圳特区报;2017年
12 娄坤 记者 孔芒;推进生物医学创新发展与合作[N];四川日报;2010年
13 ;瞄准新世纪的生物医学[N];中国医药报;2002年
14 记者  缪毅容 顾泳;诺华生物医学研究公司落沪[N];解放日报;2006年
15 记者 常珊珊;多学科交叉促进生物医学创新[N];科技日报;2000年
16 记者 蒋向东;打造生物医学与健康领域新高地[N];陕西日报;2019年
17 特约评论员 邱晨子;生物医学将成为创业的重点领域[N];21世纪经济报道;2015年
18 本报记者  顾泳;生物医学,人类只开了条“门缝”[N];解放日报;2006年
19 本报记者 聂翠蓉;10年48亿,生物医学创新全面启动[N];科技日报;2016年
20 记者 付丽丽;3D打印在生物医学领域应用将更普及[N];科技日报;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978