中文命名实体及实体关系的自动抽取研究
【摘要】:命名实体识别和实体关系抽取是信息抽取的两个重要任务。本文根据军事文本特点,结合ACE 2005中文数据集的命名实体类型和实体关系类型,定义军事领域文本中命名实体和实体关系的类型,进行人工标注,构建了军事领域标注数据集,并提出两种不同的抽取方法,包括基于管道方式的抽取方法和基于联合方式的抽取方法。本文的主要研究内容如下:(1)基于管道方式的抽取方法。将两个任务看成分离的子任务,独立进行处理。本文采用Lattice LSTM(Lattice Long Short Term Memory)模型对输入文本进行编码表示,融入词表匹配的词语信息,采用CRF(Conditional Random Field)层进行解码,实现中文命名实体识别。在此基础上,将关系抽取问题看作分类任务,采用PCNN(Piecewise Convolutional Neural Networks)网络模型,实现实体关系抽取。(2)基于联合方式的抽取方法。将两个任务看成一个统一的任务,任务之间信息融合,同时抽取中文命名实体和实体关系。本文提出基于状态转移网络的联合抽取方法,设计并定义转移动作,将联合抽取任务转换为转移动作序列的生成过程。该方法首先利用Lattice LSTM网络对输入文本进行编码表示,采用Stack LSTM(Stack Long Short Term Memory)实现栈的记忆功能,然后根据当前栈的状态,利用SoftMax层决定下一步转移动作,一直达到终结状态。基于状态转移网络的联合抽取方法能够识别中文嵌套实体,并实现命名实体和实体关系的联合抽取。本文在ACE 2005中文数据集和军事领域标注数据集上进行实验,根据实验结果评估管道方式和联合方式的模型性能。在ACE 2005中文数据集上,基于状态转移网络的联合抽取方法在中文命名实体识别结果上,F1值达到75.26%,实体关系抽取F1值达41.28%。相比于管道方式,命名实体识别结果提升8.45%,实体关系抽取结果提升12.41%。实验结果表明基于状态转移网络的中文命名实体和关系联合抽取方法优于基于管道方式的抽取方法。