收藏本站
《电子科技大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

自然语言处理中介词短语附着消歧问题的研究

廖博森  
【摘要】: 歧义是自然语言处理中经常遇见的一种语法现象。当我们在对一个句子做句法分析的时候,常常会面临这样一个问题,即一个短语或者子句可以附着在两个或者两个以上的句子成员节点上,机器很难自动地区分正确的附着位置。这种情况不仅出现在汉语的句法分析任务中,同时在英语自然语言分析中也会遇到。但是介词短语附着消歧问题只出现在英语或者其他的西方语言中。本文主要探讨英语中经常出现的介词短语附着消歧问题。很早学者们就将其看成一个模式识别任务,但是对它的形式化处理却不尽相同。现在广泛地将介词短语附着消歧问题简化为一个二值N和V的分类问题,它分别对应介词短语附着于名词和动词。因此我们只需要设计一个分类器就能很好地处理介词短语附着消歧任务。 首先,我们介绍了自然语言处理的国内外研究现状,以及课题研究的背景及理论基础。同时概述了介词短语附着消歧任务。然后我们引入了n元语法模型并且简单地介绍了几种数据平滑处理方法。其次,详细描述了语义消歧问题,尤其是介词短语附着消歧模型。我们介绍了目前比较流行的几种介词短语附着消歧模型,例如贝叶斯模型,最大熵模型,支持向量机模型,回退模型等。而将重点放在我们提出的基于双阈值直接回退模型上。我们构建了这个模型,并将其在公共的IBM测试集合上进行了测试,实验获得了85.02%的准确率和100%的召回率。我们指出很多学者将介词短语附着消歧问题看成一个独立的任务,通过使用大量的语料,来提升算法的性能,而这个做法并不有利于句法分析任务的解决。实验结果也证明该方法是一种非常有效的消歧方法,并具有理论充分,实现简单的特点。实验也表明,二元组具有充足的信息量对介词短语进行附着消歧处理,而这个结论与之前很多学者的观点不同。最后将这个模型与其他模型进行比较分析,提出了一种潜在的改进方案,即通过增加词类信息和上下文相似性计算来提高模型的准确率。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

手机知网App
【相似文献】
中国重要会议论文全文数据库 前10条
1 周晓;李超;胡明涵;王会珍;;基于人物互斥属性的中文人名消歧[A];第六届全国信息检索学术会议论文集[C];2010年
2 李丽;孙甲申;王小捷;李江;宋占江;;基于属性信息的中文人名消歧[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 孙慧;关毅;董喜双;;中文情感词倾向消歧[A];第六届全国信息检索学术会议论文集[C];2010年
4 时迎超;王会珍;肖桐;胡明涵;;面向人名消歧任务的人名识别系统[A];第六届全国信息检索学术会议论文集[C];2010年
5 丁海波;肖桐;朱靖波;;基于多阶段的中文人名消歧聚类技术的研究[A];第六届全国信息检索学术会议论文集[C];2010年
6 周云;王挺;易绵竹;王之元;;全词消歧的序列标注方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 冯志伟;;机器翻译系统消歧功能测试[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
8 杨晓安;;“没有VP的NP”型结构消歧的韵律手段[A];第九届中国语音学学术会议论文集[C];2010年
9 方向红;宋春阳;;介连兼类词“以”的句法语义区别特征及消歧策略[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 董亦农;;一个基于CFG的汉语句法分析器模型[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
中国重要报纸全文数据库 前10条
1 张素芳 译 陈永伶 校;《消歧公约》面临新挑战[N];中国妇女报;2000年
2 北京科技大学法律系副教授 王竹青;《消歧公约》与中国司法实践[N];中国妇女报;2010年
3 本报记者木佳;私企难入农业科研门[N];中华工商时报;2003年
4 本报记者 王春霞;性别平等有助实现全面建设和谐社会[N];中国妇女报;2007年
5 本报记者 胡京春;跳出农业抓农业[N];人民政协报;2003年
6 傅燕;呼吁两会更多关注性别平等话题[N];中国妇女报;2007年
7 薛宁兰;我国妇女人权与法律的回顾和展望[N];中国社会科学院院报;2005年
8 谢虹;今春,民工返城不见“潮”[N];江苏经济报;2005年
9 夏吟兰;在妇女人权框架下研究家庭暴力[N];法制日报;2004年
10 乃木;只有这样的城镇才能长大[N];中华建筑报;2000年
中国博士学位论文全文数据库 前9条
1 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年
2 于永新;基于本体的图像语义识别和检索研究[D];天津大学;2009年
3 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
4 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
5 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
6 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
7 姜丽丽;实体搜索与实体解析方法研究[D];兰州大学;2012年
8 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
9 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 廖博森;自然语言处理中介词短语附着消歧问题的研究[D];电子科技大学;2010年
2 沈剑平;面向网络人物搜索的中文人名消歧[D];哈尔滨工业大学;2010年
3 李丽;基于属性信息的中文人名消歧研究[D];北京邮电大学;2012年
4 舒平芬;个性化搜索中用户语义意图自动识别技术研究[D];东北大学;2008年
5 王英帅;Web人名消歧方法的研究与实现[D];苏州大学;2010年
6 唐博蓉;基于维基百科的命名实体消歧研究[D];北京理工大学;2011年
7 叶君梅;英汉机器翻译中的歧义及消歧策略[D];广西师范大学;2002年
8 戴祥鹰;文本聚类在话题检测与人名消歧中的应用研究[D];哈尔滨工业大学;2010年
9 汤庄园;协作标注系统中的图片标签消歧方法研究[D];华北电力大学;2012年
10 陈宣荣;[D];电子科技大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026