收藏本站
《哈尔滨工业大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

汉英动词次范畴相关技术的研究

朱聪慧  
【摘要】: 动词次范畴化信息反映了动词作谓词时所表现出来的不同句法特征的分布,是语言学研究的热点,也是自然语言处理进一步发展所不可或缺的知识。世界上很多语种在次范畴化信息自动获取的理论和实践等方面都取得了很大的进展。怎样减少次范畴自动分析过程中所需的由人工给定的语言学知识,同时减少输入数据对完全正确句法信息的依赖,并将目前已经成熟的汉英动词次范畴资源应用于实际,不但可以加深对动词次范畴语言现象的整体理解,完善动词次范畴相关的理论体系;而且也为语义和层次句法结构的表示及应用提供了新的研究方向,具有重要的理论研究意义和广阔的应用前景。 阻碍次范畴化信息应用于实际的有两个关键问题。一是从真实应用中获得的文本数据一般不含有句法信息,并且同时含有大量的格式噪音现象,目前的动词次范畴自动获取技术不适合直接使用这样的数据作为输入;二是次范畴假设自动获取过程中,需要一定的手写语言学规则作为启发式信息。为了弥补以上不足,在尽可能少地依赖由人工给定的语言学知识的情况下,设计一整套更加适合计算机自动分析方法,使得动词次范畴可以取自实际,并应用于实际,本文在国内外已有相关成果的基础上,充分考虑动词次范畴的自身特点,对整个流程进行了深入的研究。依照数据处理的前后顺序,本文研究从如下几个方面展开: 1.借鉴自然语言基础相关研究的方法,将段落切分、句子切分、标点符号的使用以及英文单词的大小写等格式噪音的纠正真正地整合到了一个统一的框架中。这种方法可以直接以同时含有多种格式噪音的数据作为输入,并且在噪音过滤过程中考虑了不同类别噪音之间的依赖关系,而不像传统方法,独立的考虑不同类别的噪音。这种统一的处理方法,极大提高了输入数据格式噪音的过滤性能,为将从真实应用中获取的文本数据被后续的自然语言处理工具所接受奠定了基础; 2.设计实现了基于无向图模型汉语分词词性标注一体化系统并从泛函空间的角度讨论了各种分类器融合方式的优劣。一体化汉语词法分析系统可以同时进行分词和词性标注两个汉语自然语言基础任务,并且避免了传统的词法分析方法中分词阶段对词性标注阶段造成的错误累积,同时相对基于有向图的汉语分词词性标注一体化方法,无向图模型可以考虑更深层次的依赖关系,大幅提高了汉语词法分析的性能,为次范畴自动获取提供了保证。 3.完成了从大规模真实文本中自动抽取语言学知识。这种以动词次范畴论元映射关系存在的语言学知识可以代替目前SCF自动获取过程中所需的启发式信息。这一过程不但放松了对输入句子必须含有完全正确句法信息的限制,并且采用了主动学习策略,使得在抽取过程中几乎不需要任何先验的额外语言学知识。此方法避免了目前方法中,论元映射关系需要人工事先给定的缺点,同时因为自动抽取方法可以获得大量的论元映射关系,较人工给定的论元映射规则,大幅提高了论元映射关系集合的覆盖范围。 4.引入间隔加权子序列核函数,设计了一种基于有指导模式的动词次范畴的自动获取方法。这种方法不再直接应用论元映射关系的匹配推导来得到相应的次范畴假设。而是将指向同一论元类型的所有映射的左部,作为训练样本集,通过间隔加权子序列核函数的方法,将问题空间转化为特征空间,并在特征空间内,判定新输入的数据和哪一类映射关系所描述的论元类别更加相似,以决定应用哪一论元类别的映射关系。这种新的论元对应关系使用方式和间隔加权子序列核函数的引入,大幅提高了自动获取过程中论元对应关系集推导结果的一致性。 5.研究了汉英双语动词次范畴论元对应关系(论元等价对)的自动获取方法。此方法可以在大规模的双语平行语料上,以一个简单的论元对应关系为初始种子自动地发现大量新的汉英论元对应关系。我们将这些新发现对应关系融入了基于短语的统计机器翻译系统后,翻译系统的汉英翻译性能有明显的提升,证明了自动抽取的汉英论元对应关系的有效性。 以上5个技术依次应用,每一个步骤的输出都是下一个步骤的输入。技术1去掉了数据中格式噪音,使得这些文本数据可以被后续的自然语言处理工具所接受;技术2为动词次范畴获取添加了必要的词法信息。前两个技术广泛适用于其他应用,我们称其为预处理过程,但又是高质量动词次范畴分析不可缺少的支持。准备好数据后,技术3自动获取的语言学知识可以代替传统的启发式信息,技术4依据自动获取的语言学知识,以有指导的方式进行次范畴获取。技术5使用已获得的双语动词次范畴信息为SMT提供支持。这样本文在尽可能不依赖语言学知识的条件下,使得动词次范畴可以取自实际,并应用于实际的过程。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:H042

知网文化
【参考文献】
中国期刊全文数据库 前10条
1 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
2 龙军;殷建平;祝恩;赵文涛;;主动学习研究综述[J];计算机研究与发展;2008年S1期
3 韩习武,赵铁军;从真实语料中自动获取汉语动词次范畴化信息[J];计算机工程与应用;2005年19期
4 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
5 韩习武;赵铁军;;基于弱指导SVM的汉语动词次范畴化自动获取[J];计算机工程与应用;2006年28期
6 韩习武;;汉英动词次范畴化对应关系自动获取[J];计算机工程与应用;2008年06期
7 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
8 黄瑞红;孙乐;冯元勇;黄云平;;基于核方法的中文实体关系抽取研究[J];中文信息学报;2008年05期
9 鲍翠梅;;基于主动学习的加权支持向量机的分类[J];计算机工程与设计;2009年04期
10 詹卫东;基于配价的汉语语义词典[J];语言文字应用;2000年01期
中国博士学位论文全文数据库 前1条
1 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 祁庆倩;;现代汉语心理动词的内部时间结构[J];安徽大学学报(哲学社会科学版);2011年03期
2 吴继刚;;从术语看古代语文词典编纂的规范化[J];安徽文学(下半月);2008年11期
3 彭可;;“Do you mind smoking?”的语用变异分析[J];安徽文学(下半月);2009年09期
4 陈荣泽;;近十年汉语方言研究的新发展[J];安康学院学报;2011年02期
5 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
6 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
7 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
8 刘秀芬;认知语言学中一组术语的对比分析[J];安阳工学院学报;2005年02期
9 徐通锵;思维方式与语法研究的方法论[J];北京大学学报(哲学社会科学版);2004年01期
10 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
中国重要会议论文全文数据库 前10条
1 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
2 赵金铭;;外国人语法偏误句子的等级序列[A];对外汉语研究的跨学科探索——汉语学习与认知国际学术研讨会论文集[C];2001年
3 刘建毅;王菁华;王枞;;领域语义语法的统计生成[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
4 张相明;雍和明;;题元理论与英汉词典动词句法处理[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
5 杨蕊;;法律条文与商业网站广告的功能语法对比分析[A];福建省外国语文学会2005年年会暨学术研讨会论文集[C];2005年
6 杜治国;;英语动词派生名词的前缀发音规则过度概括的实证分析和规律总结[A];福建省外国语文学会2006年年会暨学术研讨会论文集(上)[C];2006年
7 徐佳;;汉译英时政语篇中的动词名词化[A];福建省外国语文学会2006年年会暨学术研讨会论文集(上)[C];2006年
8 胡清平;;受控语言及其在汉英机器翻译里的应用前景[A];国际译联第四届亚洲翻译家论坛论文集[C];2005年
9 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
10 李晋霞;;面向计算机的“V_双+N_双”结构类型研究[A];语言文字应用研究论文集(Ⅱ)[C];2004年
中国博士学位论文全文数据库 前10条
1 邱闯仙;现代汉语插入语研究[D];南开大学;2010年
2 张俊;对《红楼梦》中称呼语的所指和意图的研究:认知语用视角[D];上海外国语大学;2010年
3 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
4 张雷;黎语志强话参考语法[D];南开大学;2010年
5 李凤杰;汉英对比韵律系学中的若干问题[D];南开大学;2010年
6 董正存;汉语全称量限表达研究[D];南开大学;2010年
7 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
8 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年
9 朱健平;翻译的跨文化解释[D];华东师范大学;2003年
10 马红妹;汉英机器翻译中汉语上下文语境的表示与应用研究[D];中国人民解放军国防科学技术大学;2002年
中国硕士学位论文全文数据库 前10条
1 吴丹;语言学术语汉译规范化研究[D];南昌航空大学;2010年
2 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
3 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
4 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
5 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
6 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
7 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
8 张瑶;英汉机器翻译中的英语动词汉译研究[D];大连理工大学;2010年
9 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
10 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 赵军,黄昌宁;结合句法组成模板识别汉语基本名词短语的概率模型[J];计算机研究与发展;1999年11期
4 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
5 湛燕,陈昊,袁方,王熙照;基于中文文本分类的分词方法研究[J];计算机工程与应用;2003年23期
6 段丹青;陈松乔;杨卫平;;网络入侵检测中的支持向量机主动学习算法[J];计算机工程与应用;2006年01期
7 刘爽;贾传荧;陈鹏;;一种自动选择参数的加权支持向量机算法[J];计算机工程与应用;2006年02期
8 张滨,晏蒲柳,李文翔,夏德麟;基于汉语句模的中文分词算法[J];计算机工程;2004年01期
9 贾银山,贾传荧;一种加权支持向量机分类算法[J];计算机工程;2005年12期
10 王晔;黄上腾;;基于间隔区域样本数量的加权支持向量机[J];计算机工程;2006年06期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 唐桂芬;;浅析貌似分词的介词和连词的用法[J];青苹果;2006年11期
2 马英;;《当代高职高专英语教程》(第二版)中几处值得探讨的用法[J];读与写(教育教学刊);2011年07期
3 陈晓红;;高考书面表达有效写作教学探讨[J];基础教育论坛;2011年08期
4 籍万杰;;倒装考点归纳[J];青苹果;2009年03期
5 李松芳;;浅谈提高学生书面表达能力的几点看法[J];青少年日记(教育教学研究);2011年04期
6 胡祖明;;连系动词的特征及其与不同表语的搭配[J];初中生必读;2010年09期
7 吴冬丽;;从克拉申输入假说看新闻英语对写作的作用[J];文学教育(中);2011年06期
8 唐平;;如何指导学生利用电子设备进行日语泛读训练[J];现代交际;2011年06期
9 李锋;;小议德语的框架结构及破框现象[J];北方文学(下半月);2010年07期
10 张开进;;“more than”结构的一些特殊用法[J];青苹果;2006年02期
中国重要会议论文全文数据库 前10条
1 罗良勤;;心理词汇的投射——论英语学习词典中词汇信息的标注[A];福建省外文学会2007年会暨华东地区第四届外语教学研讨会论文集[C];2007年
2 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
4 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 徐冰;姚建民;杨沐昀;赵铁军;;汉语分词在机器翻译评价中的影响[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 陈丽江;;ACL-SIGHAN第一届国际中文分词竞赛评述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 韩习武;王金勇;;汉英动词次范畴化对应关系的形式描写[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
9 苏新春;顾江萍;;“人”“机”分词差异及规范词典的收词依据——对645条常用词未见于《现汉》的思考[A];中国辞书论集2000[C];2000年
10 刘桐菊;于浩;赵铁军;;基于标引技术的特定领域XML文本自动生成[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前10条
1 高岚;海量在线做搜索引擎“卖水人”[N];中国计算机报;2004年
2 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
3 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
4 ;大恒FTR全文检索软硬件解决方案[N];计算机世界;2001年
5 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
6 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
7 朱艳;术语解释[N];中国电脑教育报;2000年
8 ;辨析成分 熟记用法[N];中国教育报;2004年
9 罗致;从For—Search看搜索引擎发展走势[N];中国计算机报;2000年
10 ;语言信息处理呼唤知识应用[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
3 匡芳涛;英语专业词汇教学研究[D];西南大学;2010年
4 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
5 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
6 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
7 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
8 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
9 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
10 刘翼斌;概念隐喻翻译的认知分析[D];上海外国语大学;2011年
中国硕士学位论文全文数据库 前10条
1 宋飞;现代汉语基本层次范畴词汇研究[D];中央民族大学;2011年
2 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
3 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
4 赵春红;外包数据库模型中文本数据完整性检测方案的研究[D];燕山大学;2010年
5 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
6 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
7 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
8 张楚屏;从分词的静词作用看分词在计算机英语中的翻译方法[D];华中科技大学;2006年
9 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
10 王驰;基于海量网络舆情信息的热点发现[D];电子科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026