收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

汉英动词次范畴相关技术的研究

朱聪慧  
【摘要】: 动词次范畴化信息反映了动词作谓词时所表现出来的不同句法特征的分布,是语言学研究的热点,也是自然语言处理进一步发展所不可或缺的知识。世界上很多语种在次范畴化信息自动获取的理论和实践等方面都取得了很大的进展。怎样减少次范畴自动分析过程中所需的由人工给定的语言学知识,同时减少输入数据对完全正确句法信息的依赖,并将目前已经成熟的汉英动词次范畴资源应用于实际,不但可以加深对动词次范畴语言现象的整体理解,完善动词次范畴相关的理论体系;而且也为语义和层次句法结构的表示及应用提供了新的研究方向,具有重要的理论研究意义和广阔的应用前景。 阻碍次范畴化信息应用于实际的有两个关键问题。一是从真实应用中获得的文本数据一般不含有句法信息,并且同时含有大量的格式噪音现象,目前的动词次范畴自动获取技术不适合直接使用这样的数据作为输入;二是次范畴假设自动获取过程中,需要一定的手写语言学规则作为启发式信息。为了弥补以上不足,在尽可能少地依赖由人工给定的语言学知识的情况下,设计一整套更加适合计算机自动分析方法,使得动词次范畴可以取自实际,并应用于实际,本文在国内外已有相关成果的基础上,充分考虑动词次范畴的自身特点,对整个流程进行了深入的研究。依照数据处理的前后顺序,本文研究从如下几个方面展开: 1.借鉴自然语言基础相关研究的方法,将段落切分、句子切分、标点符号的使用以及英文单词的大小写等格式噪音的纠正真正地整合到了一个统一的框架中。这种方法可以直接以同时含有多种格式噪音的数据作为输入,并且在噪音过滤过程中考虑了不同类别噪音之间的依赖关系,而不像传统方法,独立的考虑不同类别的噪音。这种统一的处理方法,极大提高了输入数据格式噪音的过滤性能,为将从真实应用中获取的文本数据被后续的自然语言处理工具所接受奠定了基础; 2.设计实现了基于无向图模型汉语分词词性标注一体化系统并从泛函空间的角度讨论了各种分类器融合方式的优劣。一体化汉语词法分析系统可以同时进行分词和词性标注两个汉语自然语言基础任务,并且避免了传统的词法分析方法中分词阶段对词性标注阶段造成的错误累积,同时相对基于有向图的汉语分词词性标注一体化方法,无向图模型可以考虑更深层次的依赖关系,大幅提高了汉语词法分析的性能,为次范畴自动获取提供了保证。 3.完成了从大规模真实文本中自动抽取语言学知识。这种以动词次范畴论元映射关系存在的语言学知识可以代替目前SCF自动获取过程中所需的启发式信息。这一过程不但放松了对输入句子必须含有完全正确句法信息的限制,并且采用了主动学习策略,使得在抽取过程中几乎不需要任何先验的额外语言学知识。此方法避免了目前方法中,论元映射关系需要人工事先给定的缺点,同时因为自动抽取方法可以获得大量的论元映射关系,较人工给定的论元映射规则,大幅提高了论元映射关系集合的覆盖范围。 4.引入间隔加权子序列核函数,设计了一种基于有指导模式的动词次范畴的自动获取方法。这种方法不再直接应用论元映射关系的匹配推导来得到相应的次范畴假设。而是将指向同一论元类型的所有映射的左部,作为训练样本集,通过间隔加权子序列核函数的方法,将问题空间转化为特征空间,并在特征空间内,判定新输入的数据和哪一类映射关系所描述的论元类别更加相似,以决定应用哪一论元类别的映射关系。这种新的论元对应关系使用方式和间隔加权子序列核函数的引入,大幅提高了自动获取过程中论元对应关系集推导结果的一致性。 5.研究了汉英双语动词次范畴论元对应关系(论元等价对)的自动获取方法。此方法可以在大规模的双语平行语料上,以一个简单的论元对应关系为初始种子自动地发现大量新的汉英论元对应关系。我们将这些新发现对应关系融入了基于短语的统计机器翻译系统后,翻译系统的汉英翻译性能有明显的提升,证明了自动抽取的汉英论元对应关系的有效性。 以上5个技术依次应用,每一个步骤的输出都是下一个步骤的输入。技术1去掉了数据中格式噪音,使得这些文本数据可以被后续的自然语言处理工具所接受;技术2为动词次范畴获取添加了必要的词法信息。前两个技术广泛适用于其他应用,我们称其为预处理过程,但又是高质量动词次范畴分析不可缺少的支持。准备好数据后,技术3自动获取的语言学知识可以代替传统的启发式信息,技术4依据自动获取的语言学知识,以有指导的方式进行次范畴获取。技术5使用已获得的双语动词次范畴信息为SMT提供支持。这样本文在尽可能不依赖语言学知识的条件下,使得动词次范畴可以取自实际,并应用于实际的过程。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 唐桂芬;;浅析貌似分词的介词和连词的用法[J];青苹果;2006年11期
2 马英;;《当代高职高专英语教程》(第二版)中几处值得探讨的用法[J];读与写(教育教学刊);2011年07期
3 陈晓红;;高考书面表达有效写作教学探讨[J];基础教育论坛;2011年08期
4 籍万杰;;倒装考点归纳[J];青苹果;2009年03期
5 李松芳;;浅谈提高学生书面表达能力的几点看法[J];青少年日记(教育教学研究);2011年04期
6 胡祖明;;连系动词的特征及其与不同表语的搭配[J];初中生必读;2010年09期
7 吴冬丽;;从克拉申输入假说看新闻英语对写作的作用[J];文学教育(中);2011年06期
8 唐平;;如何指导学生利用电子设备进行日语泛读训练[J];现代交际;2011年06期
9 李锋;;小议德语的框架结构及破框现象[J];北方文学(下半月);2010年07期
10 张开进;;“more than”结构的一些特殊用法[J];青苹果;2006年02期
11 崔贤文;;复合宾语的种种动词句型[J];青苹果;2007年02期
12 周江平;;记忆对语篇理解的影响分析[J];读与写(教育教学刊);2011年07期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 罗良勤;;心理词汇的投射——论英语学习词典中词汇信息的标注[A];福建省外文学会2007年会暨华东地区第四届外语教学研讨会论文集[C];2007年
2 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
4 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 徐冰;姚建民;杨沐昀;赵铁军;;汉语分词在机器翻译评价中的影响[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 陈丽江;;ACL-SIGHAN第一届国际中文分词竞赛评述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 韩习武;王金勇;;汉英动词次范畴化对应关系的形式描写[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
9 苏新春;顾江萍;;“人”“机”分词差异及规范词典的收词依据——对645条常用词未见于《现汉》的思考[A];中国辞书论集2000[C];2000年
10 刘桐菊;于浩;赵铁军;;基于标引技术的特定领域XML文本自动生成[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
3 匡芳涛;英语专业词汇教学研究[D];西南大学;2010年
4 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
5 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
6 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
7 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
8 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
9 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
10 刘翼斌;概念隐喻翻译的认知分析[D];上海外国语大学;2011年
中国硕士学位论文全文数据库 前10条
1 宋飞;现代汉语基本层次范畴词汇研究[D];中央民族大学;2011年
2 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
3 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
4 赵春红;外包数据库模型中文本数据完整性检测方案的研究[D];燕山大学;2010年
5 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
6 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
7 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
8 张楚屏;从分词的静词作用看分词在计算机英语中的翻译方法[D];华中科技大学;2006年
9 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
10 王驰;基于海量网络舆情信息的热点发现[D];电子科技大学;2011年
中国重要报纸全文数据库 前10条
1 高岚;海量在线做搜索引擎“卖水人”[N];中国计算机报;2004年
2 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
3 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
4 ;大恒FTR全文检索软硬件解决方案[N];计算机世界;2001年
5 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
6 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
7 朱艳;术语解释[N];中国电脑教育报;2000年
8 ;辨析成分 熟记用法[N];中国教育报;2004年
9 罗致;从For—Search看搜索引擎发展走势[N];中国计算机报;2000年
10 ;语言信息处理呼唤知识应用[N];中国计算机报;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978