收藏本站
《云南师范大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于知网语义相关度计算的汉语自动分词方法的研究

王广正  
【摘要】:汉语自动分词方法一直是中文信息处理乃至人工智能领域的重要研究内容。其中歧义消解作为该领域最重要也是最困难的两个研究重点之一,已经在国内外取得了重大进展,并且也提出了许多有效的分词方法。但是对于歧义字段的处理精度方面还存在不小差距,并且也遇到了不少困难。 作者对汉语自动分词技术、方法和分词系统的实现技术进行了较深入的研究,提出了基于知网的语义相关度计算的歧义字段处理分词模型,并对各链长的歧义字段进行了处理,根据以上研究,设计了WGZ分词系统,并对所设计的系统进行了测试,在所提出的计算语义相关度方法、分词和标注方法都与其它方法做了全面的比较。实验证实,本系统若以句子为单位,本文提出的分词模型的分词正确率为:97.1%;若以词为单位,则为:99.4%,标注正确率为:91.4%。 作者在研究中发现,歧义消解并不只是词的问题,而是与其上下文,包括相邻词、句子段落甚至篇章都有直接或间接的关系。作者在系统的设计与实现时,也充分考虑到了这些因素,并在知网的基础上提出了词语的语义相关度计算模型,并对各链长的歧义字段进行了处理。在进行词性标注时,作者分析了前人的基于规则的词性标注的工作,并提出了基于规则优先级的词性标注方法,最后实现了分词和标注系统。 本文在设计分词系统的时候,充分研究了知网的知识结构以及其知识系统描述语言模型(KDML),并分析了知网在刻画词语概念知识的优越性。本文在利用正向最大匹配方法和逆向最大匹配方法来对输入文本进行预切分,并通过双向扫描的方法检测歧义字段。在歧义字段的处理这一重要环节,本文通过对计算词语间的语义相关度来消除歧义。在各链长的歧义字段的处理问题上,本文都提出了解决方法,或者可以归结到链长为1的歧义字段的处理。词性标注这个环节,本文通过边标注边进行规则的完善与调整,直至该规则库对生语料库的标注的正确率达到期望为止。 在进行系统测试时,作者以本文提出的计算语义相关度方法与其他方法做了比较,并对本文的分词方法和标注方法都与其它方法做了全面的比较。最后对本文的工作进行了展望。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
2 蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期
3 吴东峥;;基于统计的开放式汉语自动分词[J];福建电脑;2009年03期
4 王希杰;赵晓凡;;浅谈汉语自动分词的几种方法[J];价值工程;2011年13期
5 殷建平;汉语自动分词方法[J];计算机工程与科学;1998年03期
6 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
7 陈湘柳;;汉语自动分词理论对英语教学的启示[J];榆林学院学报;2010年01期
8 梁南元;书面汉语自动分词综述[J];计算机应用与软件;1987年03期
9 文庭孝,邱均平,侯经川;汉语自动分词研究展望[J];现代图书情报技术;2004年07期
10 邱均平,文庭孝,周黎明;汉语自动分词与内容分析法研究[J];情报学报;2005年03期
11 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
12 孙巍;;一种面向中文信息检索的汉语自动分词方法[J];现代图书情报技术;2006年07期
13 刘龙飞;陈斌;党荣;;基于CNET模型的无词典汉语自动分词算法研究[J];计算机应用与软件;2007年10期
14 陈斌;;基于数学设计的计算机自动分词算法[J];江西科学;2009年05期
15 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
16 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
17 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期
18 周昌乐,秦莉娟;一种采用基于语境松弛算法的汉语分词排歧方法[J];厦门大学学报(自然科学版);2002年06期
19 熊回香;夏立新;;汉语分词技术综述[J];图书情报工作;2008年04期
20 王凡秀;王自强;;汉语自动分词技术研究[J];计算机与数字工程;2008年11期
中国重要会议论文全文数据库 前10条
1 田萱;杜小勇;李海华;;一种基于语义关系计算领域本体中概念间语义相关度的方法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
2 孙茂松;;汉语自动分词研究及其应用:回顾与展望[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
3 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
4 曲维光;;解决汉语自动分词的方法选择[A];第一届学生计算语言学研讨会论文集[C];2002年
5 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
6 王红玲;吕强;徐瑞;;一种基于知网的中文语义相关度计算模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 张红春;何婷婷;涂新辉;周琨峰;;中文维基百科的结构化信息抽取及词语相关度计算[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 贺前华;徐秉铮;;神经网络在汉语自动分词中的应用[A];第二届全国人机语音通讯学术会议论文集[C];1992年
9 庄丽;包塔;朱小燕;;盲人用计算机软件系统中的语音和自然语言处理技术[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
10 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前8条
1 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
2 田萱;基于上下文的信息检索关键技术研究[D];中国人民大学;2007年
3 赵英海;基于内容的多媒体视觉信息搜索研究[D];中国科学技术大学;2010年
4 刘宏哲;文本语义相似度计算方法研究[D];北京交通大学;2012年
5 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
6 吴超;在线社会化网络的语义分析和语义社会网的构建[D];浙江大学;2010年
7 王琦;古代壁画的语义检索技术及应用研究[D];浙江大学;2011年
8 生佳根;基于本体的知识获取、管理和应用方法研究[D];南京航空航天大学;2012年
中国硕士学位论文全文数据库 前10条
1 王广正;基于知网语义相关度计算的汉语自动分词方法的研究[D];云南师范大学;2006年
2 汪祥;基于中文维基百科的语义相关度计算的研究与实现[D];国防科学技术大学;2011年
3 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
4 肖江涛;基于本体的语义相关度算法研究[D];国防科学技术大学;2010年
5 程晓静;自然语言处理在药物专利检索系统中的应用[D];大连理工大学;2004年
6 张功亮;基于领域本体的Web语义信息检索研究[D];广西师范大学;2011年
7 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
8 代建英;汉语自动分词系统的研究与实现[D];重庆大学;2005年
9 胡可;基于人工免疫系统的信息过滤技术研究[D];西南交通大学;2006年
10 熊冬明;汉语自动分词和中文人名识别技术研究[D];浙江大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978