汉语依存句法分析关键技术研究
【摘要】:依存句法分析的目标是分析输入句子的句法结构,将词语序列转化为树状的依存结构。一条依存弧两个词语构成搭配关系,依存弧上的标签表示搭配的具体类型,如主语、宾语、状语等。在不同语法体系中,依存语法以其形式简洁、易于标注、便于应用等优点,逐渐受到研究人员的重视。计算自然语言学习国际会议(CoNLL)联合举办的公开评测任务从2006年至2009年连续四年关注面向多语言的依存句法分析,大大推动了依存句法分析的发展。依存句法分析也越来越广泛的应用于机器翻译、问答系统、文本挖掘、信息检索等。
依存句法分析的研究工作旨在提高依存分析的准确率和效率。高准确率的分析结果可以为上层应用提供更可信的句法结构。随着互联网数据的迅速膨胀,上层应用系统需要迅速处理海量的信息,因此效率对于依存句法分析的应用也很关键。本文的研究内容涵盖这两个问题,包括以下四个方面。
1.提出了基于柱搜索和标点切分的快速高阶依存句法分析方法。针对前人提出的面向高阶依存句法分析模型的动态规划解码算法时间复杂度高的问题,本文提出使用柱搜索的近似解码算法,一方面允许模型可以方便的融入丰富的高阶句法子树特征,另一方面保证较低的时间复杂度,我们实现的基于柱搜索的高阶依存句法分析系统在CoNLL2009年多语依存句法分析和语义角色标注联合评测任务上取得了优异的成绩。进而,我们针对汉语的特点,提出一种利用标点符号进行长句切分的二阶段依存句法分析方法,进一步提高依存句法分析模型处理长句时的效率。实验证明,这种方法可以大幅度提高依存句法分析的速度,长句子的句法分析准确率也有提高。
2.提出了汉语词性标注和依存句法分析联合模型。由于缺少词语的形态变化信息,汉语词性标注和其他语言如英语相比,准确率较低。这对对汉语依存句法分析带来严重的错误蔓延问题。实验表明使用自动词性时依存句法分析准确率比使用正确词性时低大约6%。对此,本文提出并深入系统的研究了汉语词性标注和依存句法分析联合模型。首先,我们扩展了前人提出的面向依存句法分析的解码算法,提出了相应的面向联合模型的基于动态规划的解码算法。并且,为了解决联合解码算法的时间复杂度过高的问题,我们又提出了一种有效地基于边缘概率的词性裁剪方法。实验结果表明联合模型可以提高词性和句法准确率。深入的错误分析表明联合模型可以帮助消解句法敏感的词性歧义。
3.提出了面向联合模型的分离被动进取训练算法。词性标注和依存句法分析联合模型中句法特征占据主导地位,导致词性特征无法贡献其消歧作用。对此,本文提出一种面向词性标注和依存句法分析联合模型的训练算法。算法分别不同的步长对词性特征和句法特征的权重进行更新。和传统的平均感知器和被动进取训练算法相比,分离被动进取训练算法可以很自然的增大词性特征的权重,从而更好的平衡联合模型中词性特征和句法特征的消歧作用。实验发现,我们的基于分离被动进取训练算法的联合模型在汉语和英语数据上都可以取得最好的词性和句法准确率。
4.提出了基于准同步文法的多树库融合方法。汉语存在多个异构树库,而利用多个树库以提高依存句法分析准确率是一个非常有吸引力的课题。本文提出一种基于准同步文法的多树库融合方法,充分利用标注规范不同的多个单语树库,以提高句法分析准确率。我们设计了丰富的转换模式来刻画不同标注规范间的对应规律,然后基于这些转化模式形成准同步文法特征,从而增强基准依存句法分析模型。准同步文法特征用来指导句法模型做出更好的决策,并且可以很自然的融入到基于图的句法分析解码算法中。实验结果表明,我们的方法可以充分利用源树库的知识。从而提高句法模型在目标树库上的准确率。
总之,本文针对汉语特点,深入研究了基于标点的快速高阶依存句法分析方法、词性标注和依存句法分析的联合模型和多树库融合问题,大大提高了汉语依存句法分析处理实际文本数据的效率和准确率。本研究取得了一些初步的成果。我们期待这些研究成果可以进一步推动自然语言处理领域和其他上层应用如机器翻译、信息抽取的发展。