面向真实文本的汉语词义排歧系统
【摘要】:
在自然语言处理(NLP)中,词义排歧(Word Sense Disambiguation)一直是研究的重点和难点,对其他的语言信息处理任务具有重要的理论和实践意义。词义排歧任务是一项“中间任务”,其本身并不是一个终结,而是完成其它自然语言理解任务所必不可少的,它的研究成果可以直接应用于句法分析、机器翻译、文本处理和语音识别等自然语言处理系统。
本文的主要工作是研究获取支持词义排歧的知识的方法,并在此基础上建立一个面向真实文本中实词的汉语词义排歧系统。主要从以下几个方面进行了研究:
1.词义排歧知识的获取:词义排歧知识的获取是词义排歧的关键问题。在分析词义排歧所需的知识以及知识资源中提供的知识的基础上,本文研究了知识自动获取的方法。并以在线知识系统《知网》(2000)作为知识源,通过分析《知网》中的义原间的关系,自动建立了动态角色列表库、事物与属性关系库和动态实例库等一系列支持排歧的知识库。
2.词义排歧系统的设计和实现:通过获取的句法信息、频率信息、概念间的角色关系、搭配信息以及词的联想、上下文语义(聚类)和选择限制等信息,提出一个词义排歧模型,并抽取56,000词次的新闻文本语料,尝试对其中的实词(名词、动词、形容词)进行词义排歧。模型主要包括词性过滤器、局部分析器和搭配实例库等。在此基础上我们进行了系统的设计和实现。
3.词义排歧系统的评测:我们以新闻文本语料作为评测语料,语料涉及到政治、体育、农业、科技等几个方面。文本语料首先经过山西大学的分词与词性标注系统进行处理,然后作为我们系统的输入对象。评测结果表明排歧系统对于汉语真实文本的排歧是有效的,其准确率可达到80%左右。
本文通过知识获取建立起一个多种语言知识相结合的词义排歧模型,实验结果表明,排歧效果良好。
|
|
|
|
1 |
张国清,张永奎;一种基于神经网络的词义排歧方法[J];计算机工程;2001年12期 |
2 |
冯志伟;词义排歧方法研究[J];术语标准化与信息技术;2004年01期 |
3 |
张宝剑;一种基于无指导的词义排歧方法[J];河南职业技术师范学院学报;2002年01期 |
4 |
李涓子,黄昌宁,杨尔弘;一种自组织的汉语词义排歧方法[J];中文信息学报;1999年03期 |
5 |
黄昌宁;大规模真实文本处理的理论与方法——记第五届国际极大规模语料库研讨会(WVLC-5)[J];当代语言学;1998年01期 |
6 |
刘亚清;张瑾;于纯妍;;基于义原同现频率的汉语词义排歧系统[J];计算机技术与发展;2006年05期 |
7 |
肖洪;薛德军;;基于大规模真实文本的数值知识元挖掘研究[J];计算机工程与应用;2008年30期 |
8 |
刘亚清;于纯妍;张瑾;;改进的基于义原同现频率的汉语词义排歧方法[J];计算机工程与科学;2006年12期 |
9 |
张瑾;刘亚清;于纯妍;;汉语词义排歧的另一种方法[J];小型微型计算机系统;2006年04期 |
10 |
郭志兵;黄广君;卢朝华;;一种改进的词义排歧算法[J];计算机工程与应用;2010年19期 |
11 |
玉素甫·艾白都拉;维语句法分析器中的词义排歧问题的研究[J];计算机应用与软件;2002年04期 |
12 |
尤昉,李涓子,王作英;基于《知网》的中文信息结构抽取研究[J];计算机工程与应用;2002年18期 |
13 |
李良炎,何中市,易勇;基于词联接的语义分析原理及其算法[J];重庆大学学报(自然科学版);2004年08期 |
14 |
张普;关于大规模真实文本语料库的几点理论思考[J];语言文字应用;1999年01期 |
15 |
谈文蓉;符红光;刘莉;杨宪泽;;一种基于贝叶斯分类与机读词典的多义词排歧方法[J];计算机应用;2006年06期 |
16 |
赵晨光;蔡东风;;基于改进的VSM的词义排歧策略[J];计算机应用;2010年06期 |
17 |
李伯约;白若冰;刘井玉;姜妮;向健雄;;基于英汉平行语料库的汉语信息处理研究[J];外国语言文学研究;2004年04期 |
18 |
苏伟峰,李绍滋,李堂秋;一个基于概念的中文文本分类模型[J];计算机工程与应用;2002年06期 |
19 |
李良炎,何中市,易勇;基于词联接的语义表示方法和知识库建设[J];重庆大学学报(自然科学版);2004年04期 |
20 |
刘冬明,杨尔弘,方莹;汉英双语平行语料库的词义标注[J];中文信息学报;2005年06期 |
|