收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

汉语框架语义角色的自动标注技术研究

李济洪  
【摘要】: 为了给大规模的汉语框架语义资源的构建提供一个自动标注工具,本文基于山西大学自主开发的汉语框架语义知识库(CFN),在给定句子中的一个目标词及目标词所属框架情形下,将其语义角色(框架元素)的自动标注问题通过IOB策略转化为整个句子上的词序列标注问题,使用条件随机场模型(CRF),采用统计学中的正交表实验方案,研究了汉语框架语义角色的自动标注模型。 本文的全部实验语料使用的是现有的CFN中选出25个框架的6692个例句。将语料均匀分为4份,分3组作2-fold交叉验证,以3组交叉验证的平均F1-值作为系统性能评价指标。本文给出了系统性能评价指标的方差估计,以及两个标注系统性能差异的显著性检验方法。 本文以词为基本标注单元,将标注步骤分为1)边界识别、2)角色分类、3)后处理三个步骤。分别采用了边界识别与角色分类一起进行,以及先边界识别,再角色分类两种标注策略。在后处理步骤上,对输出的标注序列要求在整个句子上满足IOB序列合法性约束,并以所有合法序列中概率最大的序列作为最后的标注输出。 本文总共提取了26个特征,对每个特征设定若干可选的窗口,组合构成CRF模型的各种特征模板。为了选出较好的特征模板,本文基于统计学中的正交表给出了一种模板选优方法,并采用三种方案进行了实验。方案一:基于11个词层面特征,其特征包括词、词性、词相对于目标词的位置、目标词等,实验选用正交表L32(49×24);方案二:基于全部的26个特征,包括11个词层面的特征和基本块的句法标记、结构标记等15个特征,选用正交表L54(21×325)。其中基本块特征提取使用的是清华大学周强的自动分析器;方案三:分批正交表实验,即先用正交表L32(49×24),在11个词层面特征选出的最好模板基础上,再加入15个基本块特征,使用正交表L54(21×325),通过适当选择正交表的水平以确保性能不低于前一批实验结果。对每种方案的实验进行了详细分析。 本文对正交表模板选优方法与传统的基于贪心算法的方法进行了比较。也比较了本文的基于词序列标注方法和采用完全句法分析树的方法,也对选用不同标注模型,如支持向量机(SVM)模型和最大熵模型的实验结果进行了比较。 实验结果表明: (1)在基于11个词层面特征上(方案一),最好结果(平均F1-值)达到61.61%,比基于完全句法分析树,将角色标注看做句法成分的分类问题的结果显著高。与传统的贪心算法特征选择方法比较,本文的正交表模板选择方法与其在标注性能上没有显著差异,但正交表方法的计算更简单,且在通用模板的选择上更适宜。 (2)加入15个基本块特征(方案二)可以显著提高标注模型的性能。这类特征主要对角色分类有显著作用,对角色的边界识别作用不显著。 (3)分批正交表实验(方案三)比实验方案二在性能上有显著提高。 (4)每个框架训练一个模型,边界识别与角色分类一起进行,与先边界识别,再角色分类两个步骤在标注性能上没有显著差别,但由前者得到的标注性能有较小的方差。 (5)基于条件随机场标注模型(CRF)与基于支持向量机(SVM)模型的标注结果没有显著差异,但显著好于基于最大熵(ME)模型的标注结果。 (6)在全部25个框架的所有实验中,语义角色边界识别最好的结果(平均F1-值)为71.68%;在给定语义角色边界下,角色分类的最好结果(平均精确率)为84.08%;在给定句子中的目标词以及目标词所属的框架情况下,最好结果(平均F1-值)达到63.26%. 本文的创新之处主要是首次系统地研究汉语框架语义角色的自动标注模型,给出了一种采用正交表的模板选优方法,在计算上,该方法比基于贪心算法的模板选择方法更简单。对于一般的序列标注中的特征选择问题,本文的正交表特征模板选优法也适用。在标注性能上,本文的结果优于基于句法分析树的语义角色标注的结果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘宝芹,施法中,唐卫清,黄永红;一种新的划分下钢结构节点图自动标注算法[J];计算机工程与应用;2002年12期
2 李亮;Auto CAD在机械CAD系统中尺寸公差的自动标注[J];机械与电子;1994年06期
3 薄瑞峰;AutoCAD中表面粗糙度自动标注的研究[J];机械管理开发;2002年03期
4 蒋红旗;用AutoLISP语言实现零件尺寸公差的自动标注[J];工具技术;2002年11期
5 白妙青,郑家恒;动词与动词搭配类型的自动标注方法[J];山西大学学报(自然科学版);2004年01期
6 刘哲;;AutoCAD中尺寸公差的自动标注[J];涟钢科技与管理;2008年01期
7 郑泽芝;;一种字母词语自动标注算法[J];厦门大学学报(自然科学版);2007年05期
8 郑泽芝;敖婷;;基于底表的多层扫描术语自动标注算法[J];厦门大学学报(自然科学版);2011年03期
9 钱玉森,陈立平,李战军,钟毅芳,周济;基于三维配筋的水工结构钢筋图自动标注研究[J];计算机辅助设计与图形学学报;2001年01期
10 赖代福;在AutoCAD2002中实现道路平曲线要素的自动标注[J];交通与计算机;2003年03期
11 杨新军;可视化设计系统中标注技术研究[J];人民长江;2004年12期
12 黄昆;自动生成中线,自动标注拐点参数……[J];工程设计CAD与智能建筑;1998年03期
13 周竞涛,张树生,孙宏伟,李蓉,王明微,王贺;可扩展尺寸极限偏差自动标注系统的研究与实现[J];机械科学与技术;2003年02期
14 李建新,秦严,霍迎顺;Auto CAD中零件表面粗糙度标注功能的开发[J];齐齐哈尔大学学报;1999年03期
15 段星光,徐岩,吴立勋;AutoCAD环境下表面粗糙度自动标注工具开发[J];工具技术;2005年04期
16 谭祯;;工程图中尺寸公差的自动生成[J];电大理工;2008年01期
17 岳明;孙滨;王晓东;;基于意见词汇Ontology的意见属性自动标注模型研究[J];河南师范大学学报(自然科学版);2011年02期
18 李玉林;王岩;;CAD环境下实现零件图尺寸的自动标注[J];装备制造技术;2008年09期
19 高伟杰;AutoCAD内常用术语的自动标注方法[J];工程设计CAD与智能建筑;1998年02期
20 徐元龙,泰严,徐连岐;Auto CAD中焊缝代号自动标注功能的开发[J];齐齐哈尔大学学报;1999年03期
中国重要会议论文全文数据库 前10条
1 彭洪保;李茹;段建勇;;基于汉语框架网的问句语义角色自动标注研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 周明海;亢世勇;;语义角色句法实现的词汇语义制约信息库的建设及其应用[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 杨敏;常宝宝;;基于北大网库的语义角色分类[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 吾买尔江·库尔班;阿里甫·库尔班;;维吾尔语框架语义知识库语义角色描述体系研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 王步康;王红玲;袁晓虹;周国栋;;基于树核函数的中文语义角色标注研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 刘开瑛;陈雪艳;李济洪;;汉语框架元素自动标注实验报告[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 王鑫;穗志方;李芸;;基于依存树距离的语义角色识别方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 李先斌;袁平波;俞能海;;基于局部最优的情感标签图像自动标注算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
9 李琳;毕玉德;陈洁;;朝鲜语对格的语义角色分析[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 王荣洋;鞠久朋;李寿山;周国栋;;基于CRFs的评价对象抽取特征研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 李济洪;汉语框架语义角色的自动标注技术研究[D];山西大学;2010年
2 孙珂;大规模文档标签自动标注技术研究[D];哈尔滨工业大学;2011年
3 袁彩霞;中文功能组块分析及应用研究[D];北京邮电大学;2009年
4 张占山;语义角色视角下的谓词同义词辨析[D];厦门大学;2006年
5 孔芳;指代消解关键问题研究[D];苏州大学;2009年
6 权震红;韩国语非叙述性名词配价研究[D];延边大学;2007年
7 周日安;名名组合的句法语义研究[D];暨南大学;2007年
8 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
9 潘泰;现代汉语移动义动词的句法语义研究[D];华中师范大学;2009年
10 张志昌;开放域阅读理解关键技术研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 王蔚林;基于最大熵模型的汉语框架语义角色自动标注[D];山西大学;2010年
2 杨杏丽;基于支持向量机的汉语框架语义角色自动标注[D];山西大学;2010年
3 王智强;基于依存特征的汉语框架语义角色自动标注[D];山西大学;2012年
4 彭洪保;基于汉语框架网的问句语义角色标注研究[D];山西大学;2010年
5 李红霞;基于Web的比较观点挖掘方法研究[D];山西大学;2011年
6 颜廷义;基于条件场的语义角色标注[D];北京邮电大学;2010年
7 袁晓虹;基于依存关系的中文语义角色标注研究[D];苏州大学;2010年
8 张超辉;中文复杂句语义角色标注[D];北京邮电大学;2010年
9 周明海;核心语义角色句法实现的词汇语义制约[D];鲁东大学;2011年
10 李永强;基于马尔可夫逻辑网络的语义角色标注[D];哈尔滨工业大学;2010年
中国重要报纸全文数据库 前8条
1 段佳;GIS精打细算当你贴身导游[N];大众科技报;2007年
2 郭莹;GIS:基于技术的创意产业[N];中国计算机报;2006年
3 韩霁;GIS:服务经济发展 方便百姓生活[N];经济日报;2007年
4 本报记者  李少林;GIS有望成为国产软件突破口[N];中国证券报;2006年
5 本报记者  韩霁 实习生 张莉莉;GIS:国产软件优势凸显[N];经济日报;2006年
6 郝峥嵘;电子地图进两会[N];中国计算机报;2007年
7 陈默 王盟 潘多;“永中商圈市场主体动态监管系统”投入使用[N];温州日报;2010年
8 记者 向杰;汉王捐赠百万设立“青年创新奖”[N];科技日报;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978