基于卷积神经网络的实体关系抽取方法研究与应用
【摘要】:随着互联网技术的快速发展,网络资源呈现爆炸式的飞速增长,增加了获取有效信息的难度。在网络新闻中,网络文本具有时效性、准确性、广泛性等特点,是一个重要的信息获取来源。命名实体识别和实体关系抽取从根本上解决的正是文本中目标实体抽取及实体之间的关系分类问题,它能够把非结构化的数据转化成三元组结构化数据的方式进行存储,是构建领域知识图谱的核心基础过程,对人们未来的行动和决策也具有很强的指导意义。本文针对实体识别和关系抽取两个任务,首先设计了融合传统词向量和BERT字向量的词嵌入模块,引入了各层次的向量信息,然后搭建了基于ID-CNN-CRF的实体识别模型。为了识别2022年北京冬奥会相关体育新闻文本中的关键类型实体,手动标注构建了体育类新闻实体识别数据集,并与其它多个模型在多个数据集上进行了对比实验。接着在该实体识别模型的基础上,通过联合学习的方式进行实体关系联合抽取,解决了基于管道方式抽取过程中存在的误差传播和实体冗余的问题,并引入了注意力机制来提高抽取效果。最后针对实体关系重叠问题,将实体识别的多分类问题通过多头选择转化为多标签问题,可以为某个实体选择与其他实体存在的多重关系,最后在开源关系抽取数据集上验证了该模型的有效性。