收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向真实文本的汉语词义排歧系统

李盛  
【摘要】: 在自然语言处理(NLP)中,词义排歧(Word Sense Disambiguation)一直是研究的重点和难点,对其他的语言信息处理任务具有重要的理论和实践意义。词义排歧任务是一项“中间任务”,其本身并不是一个终结,而是完成其它自然语言理解任务所必不可少的,它的研究成果可以直接应用于句法分析、机器翻译、文本处理和语音识别等自然语言处理系统。 本文的主要工作是研究获取支持词义排歧的知识的方法,并在此基础上建立一个面向真实文本中实词的汉语词义排歧系统。主要从以下几个方面进行了研究: 1.词义排歧知识的获取:词义排歧知识的获取是词义排歧的关键问题。在分析词义排歧所需的知识以及知识资源中提供的知识的基础上,本文研究了知识自动获取的方法。并以在线知识系统《知网》(2000)作为知识源,通过分析《知网》中的义原间的关系,自动建立了动态角色列表库、事物与属性关系库和动态实例库等一系列支持排歧的知识库。 2.词义排歧系统的设计和实现:通过获取的句法信息、频率信息、概念间的角色关系、搭配信息以及词的联想、上下文语义(聚类)和选择限制等信息,提出一个词义排歧模型,并抽取56,000词次的新闻文本语料,尝试对其中的实词(名词、动词、形容词)进行词义排歧。模型主要包括词性过滤器、局部分析器和搭配实例库等。在此基础上我们进行了系统的设计和实现。 3.词义排歧系统的评测:我们以新闻文本语料作为评测语料,语料涉及到政治、体育、农业、科技等几个方面。文本语料首先经过山西大学的分词与词性标注系统进行处理,然后作为我们系统的输入对象。评测结果表明排歧系统对于汉语真实文本的排歧是有效的,其准确率可达到80%左右。 本文通过知识获取建立起一个多种语言知识相结合的词义排歧模型,实验结果表明,排歧效果良好。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张国清,张永奎;一种基于神经网络的词义排歧方法[J];计算机工程;2001年12期
2 冯志伟;词义排歧方法研究[J];术语标准化与信息技术;2004年01期
3 张宝剑;一种基于无指导的词义排歧方法[J];河南职业技术师范学院学报;2002年01期
4 李涓子,黄昌宁,杨尔弘;一种自组织的汉语词义排歧方法[J];中文信息学报;1999年03期
5 黄昌宁;大规模真实文本处理的理论与方法——记第五届国际极大规模语料库研讨会(WVLC-5)[J];当代语言学;1998年01期
6 刘亚清;张瑾;于纯妍;;基于义原同现频率的汉语词义排歧系统[J];计算机技术与发展;2006年05期
7 肖洪;薛德军;;基于大规模真实文本的数值知识元挖掘研究[J];计算机工程与应用;2008年30期
8 刘亚清;于纯妍;张瑾;;改进的基于义原同现频率的汉语词义排歧方法[J];计算机工程与科学;2006年12期
9 张瑾;刘亚清;于纯妍;;汉语词义排歧的另一种方法[J];小型微型计算机系统;2006年04期
10 郭志兵;黄广君;卢朝华;;一种改进的词义排歧算法[J];计算机工程与应用;2010年19期
11 玉素甫·艾白都拉;维语句法分析器中的词义排歧问题的研究[J];计算机应用与软件;2002年04期
12 尤昉,李涓子,王作英;基于《知网》的中文信息结构抽取研究[J];计算机工程与应用;2002年18期
13 李良炎,何中市,易勇;基于词联接的语义分析原理及其算法[J];重庆大学学报(自然科学版);2004年08期
14 张普;关于大规模真实文本语料库的几点理论思考[J];语言文字应用;1999年01期
15 谈文蓉;符红光;刘莉;杨宪泽;;一种基于贝叶斯分类与机读词典的多义词排歧方法[J];计算机应用;2006年06期
16 赵晨光;蔡东风;;基于改进的VSM的词义排歧策略[J];计算机应用;2010年06期
17 李伯约;白若冰;刘井玉;姜妮;向健雄;;基于英汉平行语料库的汉语信息处理研究[J];外国语言文学研究;2004年04期
18 苏伟峰,李绍滋,李堂秋;一个基于概念的中文文本分类模型[J];计算机工程与应用;2002年06期
19 李良炎,何中市,易勇;基于词联接的语义表示方法和知识库建设[J];重庆大学学报(自然科学版);2004年04期
20 刘冬明,杨尔弘,方莹;汉英双语平行语料库的词义标注[J];中文信息学报;2005年06期
中国重要会议论文全文数据库 前10条
1 杨尔弘;李盛;;面向真实文本的汉语词义排歧模型研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杨尔弘;米丽萍;郝秀兰;;基于《知网》的词义排岐方法[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 王宏显;周强;;句法特征在动词词义排歧中的应用[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 杨晓峰;李堂秋;洪青阳;;汉英机器翻译系统中的一种词义排歧方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 刘冬明;杨尔弘;;基于汉英双语平行语料库的词义排歧[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 张普;;关于大规模真实文本语料库的几点理论思考[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
7 卢伟清;苏新春;;词义开放处理平台的研究和实现[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 张昱琪;周强;;大规模真实文本中汉语动词语法搭配模板的自动识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 胡玉娴;;基于《知网》和遗传算法的中文文本聚类特征选择[A];2009全国计算机网络与通信学术会议论文集[C];2009年
中国博士学位论文全文数据库 前7条
1 苏统华;脱机中文手写识别—从孤立汉字到真实文本[D];哈尔滨工业大学;2008年
2 杨海明;生命度与汉语句法的若干问题研究[D];暨南大学;2007年
3 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
4 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
5 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
6 李金莲;基于平行语料库的中日被动句对比研究[D];山东大学;2010年
7 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 李盛;面向真实文本的汉语词义排歧系统[D];山西大学;2003年
2 刘冬明;汉英双语平行语料库中对齐方法的研究[D];山西大学;2004年
3 郭志兵;基于ICVSM的摘要抽取算法研究[D];河南科技大学;2009年
4 刘风成;基于AdaBoost.MH算法的汉语多义词消歧[D];大连理工大学;2006年
5 闫凡蕾;“V_双+V_双”的语义关系类型及其自动识别[D];广西大学;2004年
6 袁瑞红;基于语义相似度的WEB结构挖掘研究及实现[D];南京理工大学;2009年
7 唐凌志;基于语义理解的论文相似度研究[D];湘潭大学;2011年
8 向泰;基于广度优先最小生成树及《知网》词汇语义相似度的启发式P2P搜索技术研究与实现[D];云南师范大学;2006年
9 林丽;基于语义距离的文本聚类算法研究[D];厦门大学;2007年
10 何元娇;基于本体的语义文本分类研究[D];北京化工大学;2008年
中国重要报纸全文数据库 前6条
1 孙郁;美国的语文书[N];中华读书报;2005年
2 李大庆;迎来光与电告别铅与火[N];科技日报;2002年
3 教育部语言文字信息管理司司长李宇明;语言文字工作应当与时俱进[N];中国教育报;2001年
4 江获;数据库是语言学家的重要工具[N];中国社会科学院院报;2004年
5 何国庆 黄略;让汉语成为网络社会强势语言[N];湖南日报;2003年
6 吴冠;海南省分行成功研发后台监督系统[N];粮油市场报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978