汉语框架语义角色的自动标注技术研究
【摘要】:
为了给大规模的汉语框架语义资源的构建提供一个自动标注工具,本文基于山西大学自主开发的汉语框架语义知识库(CFN),在给定句子中的一个目标词及目标词所属框架情形下,将其语义角色(框架元素)的自动标注问题通过IOB策略转化为整个句子上的词序列标注问题,使用条件随机场模型(CRF),采用统计学中的正交表实验方案,研究了汉语框架语义角色的自动标注模型。
本文的全部实验语料使用的是现有的CFN中选出25个框架的6692个例句。将语料均匀分为4份,分3组作2-fold交叉验证,以3组交叉验证的平均F1-值作为系统性能评价指标。本文给出了系统性能评价指标的方差估计,以及两个标注系统性能差异的显著性检验方法。
本文以词为基本标注单元,将标注步骤分为1)边界识别、2)角色分类、3)后处理三个步骤。分别采用了边界识别与角色分类一起进行,以及先边界识别,再角色分类两种标注策略。在后处理步骤上,对输出的标注序列要求在整个句子上满足IOB序列合法性约束,并以所有合法序列中概率最大的序列作为最后的标注输出。
本文总共提取了26个特征,对每个特征设定若干可选的窗口,组合构成CRF模型的各种特征模板。为了选出较好的特征模板,本文基于统计学中的正交表给出了一种模板选优方法,并采用三种方案进行了实验。方案一:基于11个词层面特征,其特征包括词、词性、词相对于目标词的位置、目标词等,实验选用正交表L32(49×24);方案二:基于全部的26个特征,包括11个词层面的特征和基本块的句法标记、结构标记等15个特征,选用正交表L54(21×325)。其中基本块特征提取使用的是清华大学周强的自动分析器;方案三:分批正交表实验,即先用正交表L32(49×24),在11个词层面特征选出的最好模板基础上,再加入15个基本块特征,使用正交表L54(21×325),通过适当选择正交表的水平以确保性能不低于前一批实验结果。对每种方案的实验进行了详细分析。
本文对正交表模板选优方法与传统的基于贪心算法的方法进行了比较。也比较了本文的基于词序列标注方法和采用完全句法分析树的方法,也对选用不同标注模型,如支持向量机(SVM)模型和最大熵模型的实验结果进行了比较。
实验结果表明:
(1)在基于11个词层面特征上(方案一),最好结果(平均F1-值)达到61.61%,比基于完全句法分析树,将角色标注看做句法成分的分类问题的结果显著高。与传统的贪心算法特征选择方法比较,本文的正交表模板选择方法与其在标注性能上没有显著差异,但正交表方法的计算更简单,且在通用模板的选择上更适宜。
(2)加入15个基本块特征(方案二)可以显著提高标注模型的性能。这类特征主要对角色分类有显著作用,对角色的边界识别作用不显著。
(3)分批正交表实验(方案三)比实验方案二在性能上有显著提高。
(4)每个框架训练一个模型,边界识别与角色分类一起进行,与先边界识别,再角色分类两个步骤在标注性能上没有显著差别,但由前者得到的标注性能有较小的方差。
(5)基于条件随机场标注模型(CRF)与基于支持向量机(SVM)模型的标注结果没有显著差异,但显著好于基于最大熵(ME)模型的标注结果。
(6)在全部25个框架的所有实验中,语义角色边界识别最好的结果(平均F1-值)为71.68%;在给定语义角色边界下,角色分类的最好结果(平均精确率)为84.08%;在给定句子中的目标词以及目标词所属的框架情况下,最好结果(平均F1-值)达到63.26%.
本文的创新之处主要是首次系统地研究汉语框架语义角色的自动标注模型,给出了一种采用正交表的模板选优方法,在计算上,该方法比基于贪心算法的模板选择方法更简单。对于一般的序列标注中的特征选择问题,本文的正交表特征模板选优法也适用。在标注性能上,本文的结果优于基于句法分析树的语义角色标注的结果。
|
|
|
|
1 |
刘宝芹,施法中,唐卫清,黄永红;一种新的划分下钢结构节点图自动标注算法[J];计算机工程与应用;2002年12期 |
2 |
李亮;Auto CAD在机械CAD系统中尺寸公差的自动标注[J];机械与电子;1994年06期 |
3 |
薄瑞峰;AutoCAD中表面粗糙度自动标注的研究[J];机械管理开发;2002年03期 |
4 |
蒋红旗;用AutoLISP语言实现零件尺寸公差的自动标注[J];工具技术;2002年11期 |
5 |
白妙青,郑家恒;动词与动词搭配类型的自动标注方法[J];山西大学学报(自然科学版);2004年01期 |
6 |
刘哲;;AutoCAD中尺寸公差的自动标注[J];涟钢科技与管理;2008年01期 |
7 |
郑泽芝;;一种字母词语自动标注算法[J];厦门大学学报(自然科学版);2007年05期 |
8 |
郑泽芝;敖婷;;基于底表的多层扫描术语自动标注算法[J];厦门大学学报(自然科学版);2011年03期 |
9 |
钱玉森,陈立平,李战军,钟毅芳,周济;基于三维配筋的水工结构钢筋图自动标注研究[J];计算机辅助设计与图形学学报;2001年01期 |
10 |
赖代福;在AutoCAD2002中实现道路平曲线要素的自动标注[J];交通与计算机;2003年03期 |
11 |
杨新军;可视化设计系统中标注技术研究[J];人民长江;2004年12期 |
12 |
黄昆;自动生成中线,自动标注拐点参数……[J];工程设计CAD与智能建筑;1998年03期 |
13 |
周竞涛,张树生,孙宏伟,李蓉,王明微,王贺;可扩展尺寸极限偏差自动标注系统的研究与实现[J];机械科学与技术;2003年02期 |
14 |
李建新,秦严,霍迎顺;Auto CAD中零件表面粗糙度标注功能的开发[J];齐齐哈尔大学学报;1999年03期 |
15 |
段星光,徐岩,吴立勋;AutoCAD环境下表面粗糙度自动标注工具开发[J];工具技术;2005年04期 |
16 |
谭祯;;工程图中尺寸公差的自动生成[J];电大理工;2008年01期 |
17 |
岳明;孙滨;王晓东;;基于意见词汇Ontology的意见属性自动标注模型研究[J];河南师范大学学报(自然科学版);2011年02期 |
18 |
李玉林;王岩;;CAD环境下实现零件图尺寸的自动标注[J];装备制造技术;2008年09期 |
19 |
高伟杰;AutoCAD内常用术语的自动标注方法[J];工程设计CAD与智能建筑;1998年02期 |
20 |
徐元龙,泰严,徐连岐;Auto CAD中焊缝代号自动标注功能的开发[J];齐齐哈尔大学学报;1999年03期 |
|