收藏本站
《南京师范大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

汉语真实文本的语义角色标注

陈丽江  
【摘要】: 语义角色标注在机器翻译、文本理解等自然语言处理系统中是一项必需的任务,它需要自动识别出句子中的谓词所关涉的论元结构。目前英语的语义角色标注系统很多,但汉语的相关研究还比较少见。汉语语义角色的确定有其自身的特点,不应该照搬英语的标注规范与方法。 本文首次采用了清华大学开发的汉语句法树库TCT进行汉语真实文本的语义角色标注实验。这是语义角色标注的一种新的尝试,与以往的标注相比存在以下难点:(一)以往在Propbank中的标注都是按照每个谓词不同的语义框架选择了一些句子进行标注,这样对于自动标注会有帮助,但无法反映真实文本的情况,而TCT中的句子都没有经过人工的筛选,完全忠实于原来的文本,特别是汉语以分句较多为特点,而真实文本正反映了这个特点,增加了标注的难度;(二)实验中使用了小规模的训练语料和测试语料,这使得标注难度大大增加,而且为了验证标注方法的有效性,我们使用了5重交叉验证的方法,弥补了测试语料较少的缺撼;(三)本文实验使用的测试语料中的大部分谓词词形都没有出现在训练语料中,所以有关谓词框架的信息相对缺乏,而以往大部分测试语料中的谓词词形都会出现在训练语料中;(四)我们在标注中需要处理大量的名动词,而以往汉语和英语的标注中都没有包括名动词或名词化形式;(五)TCT树库中缺乏空语类标记,我们的系统需要自动判断与空语类对应的论元。 针对以上难点,我们采用了新的标注方法,构造了一个适合在小规模真实文本上进行语义角色标注的系统:(一)本文将统计和规则的方法结合起来,在规则制定的一些薄弱环节上,如谓词在名词短语中,谓词和论元在不同分句中,时间和持续的区分等,确定了不同的测试集、训练集,用决策树进一步提高规则标注的准确率,并首次将规则标注的结果转换为规则特征,结合其它特征一起进行语义角色标注实验。实验结果表明,规则特征能够有效避免决策树对于训练数据的过适应(overfitting)问题,在标注结果上好于概率特征;(二)我们的系统的识别过程分为四个步骤:首先用规则判定是否有谓词论元关系,接着用决策树判定谓词论元关系,用规则确定成分的语义角色,用决策树确定成分的语义角色;(三)在规则制定的过程中,我们充分利用句法和语义的对应关系,根据句法结构对谓词论元关系做了分类,如主谓结构中的谓词论元关系、名词短语内部的谓词论元关系等,并根据不同的类别采用了不同的识别策略;(四)汉语中的句式变换和倒装是影响汉语语义角色标注的主要因素,我们对不同类型的句式变换和倒装进行了讨论,并制定了相应的判断语义角色的规则;(五)目前针对语义角色标注的资源还很缺乏,所以我们利用《同义词词林》等对谓词、名词进行划分,建立了用于区分语义角色的谓词词表和名词词表,并通过对介词的分类构造了一个介词词表,用于确定以介词为标记的论元的语义角色。 本文的实验方法反映了汉语在语义角色标注上的特点,并在开放测试和封闭测试上取得了较好的效果,尽管使用的是真实文本,训练数据也比较少,但最终规则加统计的方法的F值达到了82%。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 傅兴尚;俄语词汇知识库在NLP中的运作机制[J];外语学刊;2002年03期
2 雨丝;;108个瓶子让他不再小看自己[J];青年科学;2007年01期
3 本刊记者;;2003自然语言处理与知识工程国际会议将在中国北京举行[J];语言科学;2003年03期
4 秦玮远;;自然语言中副语言的逻辑处理[J];现代语文(语言研究版);2007年07期
5 冯志伟;;自然语言处理中的一些宏观问题之我见[J];中国外语;2009年05期
6 陈肇雄,王英姿;我国智能型机器翻译研究获重要成果[J];中国科学基金;1997年03期
7 常宝宝;;自然语言分析与生成术语简介[J];术语标准化与信息技术;2010年04期
8 田怀凤;;基于多策略的专业术语抽取处理技术的研究[J];计算机与现代化;2008年12期
9 李海艳;;语义距离的计算与感知[J];法国研究;2010年03期
10 徐臻;;试论语言工程的开发[J];黑龙江高教研究;1984年02期
11 吕西安·马尔柰夫,保尔·若利昂;简论自然语言处理的连接网络法[J];中文信息学报;1997年02期
12 陆俭明;;要重视特征的研究与描写[J];长江学术;2006年01期
13 赵铁军;朱聪慧;;世界最大的自然语言处理和语音技术实验室——哈尔滨工业大学语言语音教育部-微软重点实验室[J];计算机教育;2007年11期
14 黄昌宁,周明;亚太地区自然语言处理的学术盛会——记在韩国汉城召开的NLPRS’95[J];当代语言学;1996年02期
15 魏长宏;张春柏;;机器翻译的译后编辑[J];中国科技翻译;2007年03期
16 李可胜;;语言学中的形式语义学[J];中国社会科学院研究生院学报;2009年02期
17 宗成庆;曹右琦;俞士汶;;中文信息处理60年[J];语言文字应用;2009年04期
18 柏晓静;俞士汶;朱学锋;;自然语言处理中的技术评测及关于英语专业考试的思考[J];外语电化教学;2010年01期
19 祝清松;;我国自然语言处理研究的文献计量分析[J];情报杂志;2009年S2期
20 F·Z·;自然语言处理学术讨论会在京举行[J];语文建设;1989年04期
中国重要会议论文全文数据库 前10条
1 刘宝艳;林鸿飞;杨志豪;;基于改进编辑距离和依存结构的句子相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
2 王波;王厚峰;;中文单词聚类的比较研究[A];第三届学生计算语言学研讨会论文集[C];2006年
3 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
6 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
10 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 记者 马婧妤;纽交所参与上海国际板规则制定[N];上海证券报;2011年
3 记者 常国梁 通讯员 由威;江苏圣奥 参与欧盟技术规则制定[N];泰州日报;2010年
4 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
5 吴菊淑 北哲 王莉;中国进入世贸规则制定核心层[N];中国企业报;2008年
6 ;规则制定:给民营企业一席之地[N];中国经营报;2001年
7 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
8 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
9 本报记者 周奇 通讯员 商新;中国首参国际贸易规则制定[N];北京日报;2005年
10 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 王红玲;基于特征向量的中英文语义角色标注研究[D];苏州大学;2009年
2 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
3 车万翔;基于核方法的语义角色标注研究[D];哈尔滨工业大学;2008年
4 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
5 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
6 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
8 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
9 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
10 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前10条
1 陈丽江;汉语真实文本的语义角色标注[D];南京师范大学;2007年
2 王利局;基于语义分析树核的句子相似度计算[D];大连理工大学;2008年
3 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
4 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
5 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
6 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
7 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
8 侯丽敏;基于网络的智能答疑系统的研究与实现[D];河南大学;2005年
9 崔昌利;俄语简单句述谓VP的模式化及自动识别[D];黑龙江大学;2005年
10 赵城利;基于Web的信息智能感知技术及应用[D];国防科学技术大学;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978