收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

知识自动获取的词义消歧方法

车超  
【摘要】: 随着互联网的兴起,以论坛、博客等自然语言形式保存的知识以指数级的速度增长,对这些知识的挖掘和利用对自然语言处理技术提出了更高的要求。人类语言中广泛存在的歧义性给自然语言处理技术带来了困难。作为在词语级别消除语言歧义性的方法,词义消歧在机器翻译、信息检索、信息抽取等许多自然语言处理任务中有广泛的应用,并对提高其性能有关键的作用。但知识获取瓶颈问题影响了词义消歧在实践中的推广和应用。知识获取瓶颈问题是指词义消歧方法由于获取消歧知识困难或缺乏消歧知识而对某些歧义词不能消歧或不能正确消歧的问题。该问题严重限制了词义消歧系统的性能提升,是词义消歧系统走向实用化的绊脚石。 基于上述应用背景,在国家863高技术发展计划和国家自然科学基金的资助下,以面向创新设计的专利检索系统为背景,本文研究自动获取消歧知识的词义消歧方法。本文试图从不同的角度,以及以不同方法从不同的知识源中获取知识,并将不同的知识糅合在一起,缓解词义消歧中的知识获取瓶颈问题。本文工作主要分为以下方面: (1)为了充分利用知网中所蕴藏的消歧知识,本文提出了一种基于知网中义原关系的多策略相结合的词义消歧方法。该方法在对歧义词根据词性进行类别消歧后,再根据歧义词的上下文中存在的义原关系,分别利用义原间的部件.整体关系、属性.宿主关系和值-属性关系进行消歧。如果不能消除歧义,则继续进行基于中文信息结构和语义相关度的消歧。该方法使用的多种策略特点不一,基于部件.整体关系的消歧和基于属性.宿主关系的消歧作用于名词,基于值-属性关系的消歧对形容词作用,基于中文信息结构和语义相关度的消歧通用性较强。多种策略结合在一起消歧,既能使这些不同特点的策略互为补充,又能最大限度的挖掘知网中的消歧知识以提高消歧的准确率。 (2)为了提高使用等价伪词自动获取标注语料的质量,本文提出一种双层过滤的自动获取标注语料的方法。“双层过滤”是对自动获取的语料从等价伪词和句子两个层面上对样本(句子)进行过滤。在等价伪词层面上,该方法根据候选词和目标词的上下文相似度,在目标词的单义同义词中筛选出语义和目标词最接近的词作为等价伪词。在句子层面上,对使用等价伪词获取的例句,根据样本与目标词的上下文共现频度进行过滤,删除了不适合用作消歧的噪声实例。两种粒度不同的过滤措施结合在一起使用,使我们获得了质量更好的标注语料。 (3)针对自动标注语料和人工标注语料的缺点,本文给出了一种将自动标注语料和人工标注实例相结合的词义消歧方法。该方法一方面借助人工标注语料为某些无等价伪词的词义提供消歧实例,并利用标注语料计算各词义的分布概率。另一方面使用等价伪词自动获取大量的标注语料,弥补人工标注语料数量上的不足。该方法使两种语料相辅相成,更好的发挥了它们在词义消歧中的作用。 此外,本文还提出一种基于语义关联图的词义消歧方法,尝试将知网、未标注语料和标注语料综合在一起表示为语义关联图进行消歧。最后,本文将词义消歧方法应用在文本分类中,提出一种概念与词形相结合的特征表示方法。本文提出的四种消歧方法都在词义消歧评测会议Senseval-3 (2004)的汉语词汇采样任务进行了测试。所有方法都接近或超过当时参加评测的其它有指导方法,表明了本文方法的有效性。 本文第一种方法利用知网中义原间的语义关系和语义距离进行消歧,充分挖掘了知网中的消歧知识,第二种方法利用等价伪词自动获取标注语料,解决了基于语料库的方法缺乏标注语料的问题,第三种方法将自动标注语料和人工标注语料结合在一起消歧,分别发挥了自动标注语料的数量优势和人工标注语料的质量优势。本文针对词义消歧的知识获取瓶颈问题,从不同的方面获取消歧知识,提高词义消歧的覆盖率和准确率,期望有助于词义消歧的知识获取瓶颈问题的研究。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王晋;孙涌;王璁玮;;基于领域本体的文本相似度算法[J];苏州大学学报(工科版);2011年03期
2 于兴艳;孔真;;浅析基于web的跨语言信息检索之现状[J];信息通信;2011年04期
3 杨皓东;江凌;李国俊;;国内自然语言处理研究热点分析——基于共词分析[J];图书情报工作;2011年10期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 吴崇斌;张全;;上下文边界可变的贝叶斯分类器词义消歧方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张云涛;龚玲;王永成;;基于语料库的朴素贝叶斯方法的词义消歧[A];2005年中国智能自动化会议论文集[C];2005年
4 余晓峰;刘鹏远;赵铁军;;一种基于《知网》的汉语词语词义消歧方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 丁江伟;刘挺;卢志茂;李生;;隐马尔可夫模型和贝叶斯模型词义消歧对比研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 吴云芳;温珍珊;段慧明;俞士汶;;语料库粗粒度词义标注[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 何径舟;王厚峰;;基于特征自动选取的汉语词义消歧[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 秦颖;王小捷;;组合中文词义消歧[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 于丽丽;丁德鑫;曲维光;陈小荷;石民;;基于多分类器集成的古代汉语词义消歧[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 王菁华;刘建毅;王枞;;语义网络结构下的词义消歧[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 车超;知识自动获取的词义消歧方法[D];大连理工大学;2010年
2 涂锟;基于自然语言与记忆再重构的常识推理模型[D];华南理工大学;2010年
3 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
4 王菁华;文本中知识的获取[D];北京邮电大学;2008年
5 秦颖;汉语词和短语的歧义消解研究[D];北京邮电大学;2008年
6 王会珍;文本内容分类和主题追踪关键技术研究[D];东北大学;2008年
7 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
8 王瑞琴;基于语义处理技术的信息检索模型研究[D];浙江大学;2009年
9 刘凯鹏;社会性标注关键技术及其在信息检索中的应用研究[D];哈尔滨工业大学;2010年
10 陈晨;留学生汉语体标记习得的实证研究[D];中央民族大学;2010年
中国硕士学位论文全文数据库 前10条
1 史俊冰;问答系统中词义消歧与关键词扩展研究[D];太原理工大学;2011年
2 李雪峰;社保审计领域语料库构建研究[D];哈尔滨工程大学;2011年
3 詹靓雯;基于知网的中文词义消歧研究[D];中国计量学院;2012年
4 刘倩;基于本体的话题情感分析研究[D];河南师范大学;2011年
5 邓宾;中文词义消岐研究[D];昆明理工大学;2009年
6 谢熔;分类训练语料管理系统的设计与开发[D];电子科技大学;2012年
7 陈浩;基于二阶上下文的无导词义消歧研究[D];华中师范大学;2005年
8 吴守用;哈萨克文语料库管理系统研究与实现[D];新疆大学;2010年
9 秦少康;英语词汇歧义及英汉机器翻译中词义消歧上下限研究[D];厦门大学;2006年
10 徐赟;基于知网和贝叶斯模型的词义消岐技术的研究[D];南京理工大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978