汉语事件描述单元的自动识别
【摘要】:随着汉语自然语言处理任务的不断深入,汉语句子研究也逐步从句法层面,进入到了语义层面,汉语句子的句法语义分析逐渐成为汉语自然语言处理过程中一个重要的任务。
经过多年发展,句法、语义层面的研究已相对比较成熟,可是对于完整句子的句法语义分析性能仍难以获得理想的结果。导致这个问题的原因,一方面是由于现有技术条件的限制,另一方面则是由于汉语句子自身结构的特点。因此,在不断提出新方法或改进现有方法的同时,有学者提出了利用事件描述单元这个概念来解决句法语义分析的困难。事件描述单元可以简单的理解为将依照事件划分的简单单元,它的提出将传统的完整句子的句法语义分析转化为事件描述单元的句法语义分析及单元间逻辑关系分析,从而降低的分析难度。而事件描述单元句法语义分析的基础则是对事件描述单元的正确识别,这也是文本所要解决的重点问题。
目前,事件描述单元的识别方法主要有统计与规则两种方法。但两种方法在识别中都存在一些缺陷,需要更为丰富的句法语义特征信息提高识别正确率。在这种情况下,本文提出一种将两种方法相结合的事件描述单元识别方法。该方法以最大熵分类器和启发式谓词识别规则为基础,设计了两套结合方案。在不增加新的句法语义特征情况下,在测试集上获得了79.4%和78.6%的正确率,提高了事件描述单元的识别性能。
此外,我们进行了事件描述单元的句法语义分析初探。在总结前人研究成果的基础上,结合事件描述单元结构简单的特点,提出了基于短语组合规则的句法分析方法和利用句法树信息及配价模式进行CFN框架元素标注的方法。