收藏本站
《哈尔滨工业大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

汉英动词次范畴相关技术的研究

朱聪慧  
【摘要】: 动词次范畴化信息反映了动词作谓词时所表现出来的不同句法特征的分布,是语言学研究的热点,也是自然语言处理进一步发展所不可或缺的知识。世界上很多语种在次范畴化信息自动获取的理论和实践等方面都取得了很大的进展。怎样减少次范畴自动分析过程中所需的由人工给定的语言学知识,同时减少输入数据对完全正确句法信息的依赖,并将目前已经成熟的汉英动词次范畴资源应用于实际,不但可以加深对动词次范畴语言现象的整体理解,完善动词次范畴相关的理论体系;而且也为语义和层次句法结构的表示及应用提供了新的研究方向,具有重要的理论研究意义和广阔的应用前景。 阻碍次范畴化信息应用于实际的有两个关键问题。一是从真实应用中获得的文本数据一般不含有句法信息,并且同时含有大量的格式噪音现象,目前的动词次范畴自动获取技术不适合直接使用这样的数据作为输入;二是次范畴假设自动获取过程中,需要一定的手写语言学规则作为启发式信息。为了弥补以上不足,在尽可能少地依赖由人工给定的语言学知识的情况下,设计一整套更加适合计算机自动分析方法,使得动词次范畴可以取自实际,并应用于实际,本文在国内外已有相关成果的基础上,充分考虑动词次范畴的自身特点,对整个流程进行了深入的研究。依照数据处理的前后顺序,本文研究从如下几个方面展开: 1.借鉴自然语言基础相关研究的方法,将段落切分、句子切分、标点符号的使用以及英文单词的大小写等格式噪音的纠正真正地整合到了一个统一的框架中。这种方法可以直接以同时含有多种格式噪音的数据作为输入,并且在噪音过滤过程中考虑了不同类别噪音之间的依赖关系,而不像传统方法,独立的考虑不同类别的噪音。这种统一的处理方法,极大提高了输入数据格式噪音的过滤性能,为将从真实应用中获取的文本数据被后续的自然语言处理工具所接受奠定了基础; 2.设计实现了基于无向图模型汉语分词词性标注一体化系统并从泛函空间的角度讨论了各种分类器融合方式的优劣。一体化汉语词法分析系统可以同时进行分词和词性标注两个汉语自然语言基础任务,并且避免了传统的词法分析方法中分词阶段对词性标注阶段造成的错误累积,同时相对基于有向图的汉语分词词性标注一体化方法,无向图模型可以考虑更深层次的依赖关系,大幅提高了汉语词法分析的性能,为次范畴自动获取提供了保证。 3.完成了从大规模真实文本中自动抽取语言学知识。这种以动词次范畴论元映射关系存在的语言学知识可以代替目前SCF自动获取过程中所需的启发式信息。这一过程不但放松了对输入句子必须含有完全正确句法信息的限制,并且采用了主动学习策略,使得在抽取过程中几乎不需要任何先验的额外语言学知识。此方法避免了目前方法中,论元映射关系需要人工事先给定的缺点,同时因为自动抽取方法可以获得大量的论元映射关系,较人工给定的论元映射规则,大幅提高了论元映射关系集合的覆盖范围。 4.引入间隔加权子序列核函数,设计了一种基于有指导模式的动词次范畴的自动获取方法。这种方法不再直接应用论元映射关系的匹配推导来得到相应的次范畴假设。而是将指向同一论元类型的所有映射的左部,作为训练样本集,通过间隔加权子序列核函数的方法,将问题空间转化为特征空间,并在特征空间内,判定新输入的数据和哪一类映射关系所描述的论元类别更加相似,以决定应用哪一论元类别的映射关系。这种新的论元对应关系使用方式和间隔加权子序列核函数的引入,大幅提高了自动获取过程中论元对应关系集推导结果的一致性。 5.研究了汉英双语动词次范畴论元对应关系(论元等价对)的自动获取方法。此方法可以在大规模的双语平行语料上,以一个简单的论元对应关系为初始种子自动地发现大量新的汉英论元对应关系。我们将这些新发现对应关系融入了基于短语的统计机器翻译系统后,翻译系统的汉英翻译性能有明显的提升,证明了自动抽取的汉英论元对应关系的有效性。 以上5个技术依次应用,每一个步骤的输出都是下一个步骤的输入。技术1去掉了数据中格式噪音,使得这些文本数据可以被后续的自然语言处理工具所接受;技术2为动词次范畴获取添加了必要的词法信息。前两个技术广泛适用于其他应用,我们称其为预处理过程,但又是高质量动词次范畴分析不可缺少的支持。准备好数据后,技术3自动获取的语言学知识可以代替传统的启发式信息,技术4依据自动获取的语言学知识,以有指导的方式进行次范畴获取。技术5使用已获得的双语动词次范畴信息为SMT提供支持。这样本文在尽可能不依赖语言学知识的条件下,使得动词次范畴可以取自实际,并应用于实际的过程。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:H042

【参考文献】
中国期刊全文数据库 前10条
1 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
2 龙军;殷建平;祝恩;赵文涛;;主动学习研究综述[J];计算机研究与发展;2008年S1期
3 韩习武,赵铁军;从真实语料中自动获取汉语动词次范畴化信息[J];计算机工程与应用;2005年19期
4 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
5 韩习武;;汉英动词次范畴化对应关系自动获取[J];计算机工程与应用;2008年06期
6 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
7 黄瑞红;孙乐;冯元勇;黄云平;;基于核方法的中文实体关系抽取研究[J];中文信息学报;2008年05期
8 鲍翠梅;;基于主动学习的加权支持向量机的分类[J];计算机工程与设计;2009年04期
9 詹卫东;基于配价的汉语语义词典[J];语言文字应用;2000年01期
10 黄昌宁;中文信息处理中的分词问题[J];语言文字应用;1997年01期
中国博士学位论文全文数据库 前1条
1 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 祁庆倩;;现代汉语心理动词的内部时间结构[J];安徽大学学报(哲学社会科学版);2011年03期
2 吴继刚;;从术语看古代语文词典编纂的规范化[J];安徽文学(下半月);2008年11期
3 彭可;;“Do you mind smoking?”的语用变异分析[J];安徽文学(下半月);2009年09期
4 陈荣泽;;近十年汉语方言研究的新发展[J];安康学院学报;2011年02期
5 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
6 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
7 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
8 刘秀芬;认知语言学中一组术语的对比分析[J];安阳工学院学报;2005年02期
9 徐通锵;思维方式与语法研究的方法论[J];北京大学学报(哲学社会科学版);2004年01期
10 杨尔弘;;媒体5年词语使用情况调查分析[J];北华大学学报(社会科学版);2011年04期
中国重要会议论文全文数据库 前10条
1 李金;宋阳;梁洪;;语言残障患者医疗辅助系统设计[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 居胜峰;王中卿;李寿山;周国栋;;情感分类中不同主动学习策略比较研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
7 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
8 刘建毅;王菁华;王枞;;领域语义语法的统计生成[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
9 张相明;雍和明;;题元理论与英汉词典动词句法处理[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
10 杨蕊;;法律条文与商业网站广告的功能语法对比分析[A];福建省外国语文学会2005年年会暨学术研讨会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 邱闯仙;现代汉语插入语研究[D];南开大学;2010年
2 张俊;对《红楼梦》中称呼语的所指和意图的研究:认知语用视角[D];上海外国语大学;2010年
3 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
4 李秉震;汉语话题标记的语义、语用功能研究[D];南开大学;2010年
5 张雷;黎语志强话参考语法[D];南开大学;2010年
6 李凤杰;汉英对比韵律系学中的若干问题[D];南开大学;2010年
7 董正存;汉语全称量限表达研究[D];南开大学;2010年
8 朱怀;概念整合与汉语非受事宾语句[D];吉林大学;2011年
9 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
10 陈荣;英语词汇教学的认知语境研究[D];西南大学;2011年
中国硕士学位论文全文数据库 前10条
1 吴丹;语言学术语汉译规范化研究[D];南昌航空大学;2010年
2 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
3 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
4 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
5 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
6 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
7 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
8 张瑶;英汉机器翻译中的英语动词汉译研究[D];大连理工大学;2010年
9 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
10 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 赵军,黄昌宁;结合句法组成模板识别汉语基本名词短语的概率模型[J];计算机研究与发展;1999年11期
4 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
5 湛燕,陈昊,袁方,王熙照;基于中文文本分类的分词方法研究[J];计算机工程与应用;2003年23期
6 段丹青;陈松乔;杨卫平;;网络入侵检测中的支持向量机主动学习算法[J];计算机工程与应用;2006年01期
7 刘爽;贾传荧;陈鹏;;一种自动选择参数的加权支持向量机算法[J];计算机工程与应用;2006年02期
8 张滨,晏蒲柳,李文翔,夏德麟;基于汉语句模的中文分词算法[J];计算机工程;2004年01期
9 贾银山,贾传荧;一种加权支持向量机分类算法[J];计算机工程;2005年12期
10 王晔;黄上腾;;基于间隔区域样本数量的加权支持向量机[J];计算机工程;2006年06期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前2条
1 曹雁;;英汉新闻语类CF标记性主位特点分析及对比[J];沈阳大学学报;2006年01期
2 徐建华;李秋霞;;关于汉语惯用法研究的若干问题[J];淮海工学院学报(社会科学版);2009年02期
中国重要会议论文全文数据库 前1条
1 罗良勤;;心理词汇的投射——论英语学习词典中词汇信息的标注[A];福建省外文学会2007年会暨华东地区第四届外语教学研讨会论文集[C];2007年
中国博士学位论文全文数据库 前5条
1 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
2 谭德展;有圈路代数及其商代数的上同调的研究[D];浙江大学;2013年
3 绪可望;汉英空间构式对比研究[D];东北师范大学;2012年
4 匡芳涛;英语专业词汇教学研究[D];西南大学;2010年
5 刘翼斌;概念隐喻翻译的认知分析[D];上海外国语大学;2011年
中国硕士学位论文全文数据库 前10条
1 宋飞;现代汉语基本层次范畴词汇研究[D];中央民族大学;2011年
2 蔡甜;现代汉语人体类基本层次范畴词汇研究[D];中央民族大学;2012年
3 李倩;现代汉语肢体动作类基本层次范畴词汇研究[D];中央民族大学;2013年
4 戴春蕾;汉语范围构式群“x前后/左右/上下/内外”的共性与个性[D];湘潭大学;2013年
5 王俊清;佤语动词研究[D];中央民族大学;2010年
6 张珍;中国大学英语学习者基本层次动词的使用研究[D];宁波大学;2010年
7 吴艺彬;俄语三价动词的语义配价与句法模式[D];哈尔滨师范大学;2010年
8 张喜彦;英汉人体基本层次范畴名词在隐喻中的对比研究[D];华中科技大学;2009年
9 张喜彦;英汉人体基本层次范畴名词在隐喻中的对比研究[D];华中科技大学;2009年
10 周维;俄语四价动词的语义句法研究[D];黑龙江大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026