收藏本站
《吉林大学》 2016年
收藏 | 手机打开
二维码
手机客户端打开本文

中文分词算法的研究与实现

秦赞  
【摘要】:在本文中,对自然语言处理的基础性问题中文分词进行了研究。在常见的基于词典的分词算法和基于统计的分词算法的基础之上,提出了一种基于词典与基于统计相结合的分词方法,充分利用了基于词典分词的高效性及基于统计的分词的较强的歧义处理的能力。首先使用改进的双向匹配方法对待切分句子是否包含歧义进行判断,如果判断没有歧义,将分词结果直接作为输入传递给中文人名识别模块;如果判断包含歧义,该句子需要基于统计的方法进行切分,首先,使用正向全切分算法对待切分句子进行处理,得到所有的可能的切分情况,然后,根据训练得到的bin-gram语言模型对各种切分情况进行可能性的计算,选出概率最大的三种结果加入到备选集,下一步使用基于隐马尔可夫(HMM)的评价算法对备选集中的三种切分进行出现的可能性评估,选取概率最大的一种作为切分后的结果,最后将该结果作为中文人名识别模块的输入,进行中文人名的识别操作,对于中文人名的识别,本文采取了一种规则与统计相结合的识别算法,人名识别模块的输出便是最终的处理结果。在实际中,只有少部分的中文句子包含歧义,这就意味这大部分的句子使用双向匹配算法就可以得到解决,少部分的句子使用基于统计的分词方法进行歧义的消除,这样就最大程度地兼顾了效率与准确性。实验结果表现出了较好的分词效果。本文的创新之处在于:使用了词典与统计相结合的分词方法;对基于词典的分词方法进行了改进,并对传统的整词二分法词典及双字哈希词典均进行了优化,引入了词长数组,对于词典正文部分按照长度分开存储,并进行排序,提高了词典的匹配效率并减少了空间占用,引入了结尾词长数组从而使逆向匹配算法可以和正向匹配算法使用同一个词典,实现了词典的复用;使用了一种三层的存储结构存储bin-gram语言模型,提高了运算速度;采用了规则与统计相结合的中文人名识别方法,表现出了较好的人名识别率。最终实现了一个中文分词的系统,提供了便捷的操作界面,系统集成了各种词典结构及分词方法,并支持词典的添加删除等维护操作,方便操作及对比研究。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 张海营;;全二分快速自动分词算法构建[J];现代图书情报技术;2007年04期
2 宋国柱;陈俊杰;;基于双字词的动态最大匹配分词算法的研究[J];太原科技大学学报;2009年03期
3 吴亮;;一种改进的最大匹配分词算法研究[J];现代商贸工业;2010年09期
4 胡局新;鞠训光;;自学习分词算法在科研项目查重系统中的应用[J];科技通报;2013年06期
5 曾华琳,李堂秋,史晓东;一种基于提取上下文信息的分词算法[J];计算机应用;2005年09期
6 吴涛;张毛迪;陈传波;;一种改进的统计与后串最大匹配的中文分词算法研究[J];计算机工程与科学;2008年08期
7 亢临生,张永奎;基于标记的分词算法[J];山西大学学报(自然科学版);1994年03期
8 郭祥昊,钟义信,杨丽;基于两字词簇的汉语快速自动分词算法[J];情报学报;1998年05期
9 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
10 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
中国重要会议论文全文数据库 前5条
1 张秋亮;方凯;;基于中文分词算法的铁路客规查询系统研究[A];第八届中国智能交通年会论文集[C];2013年
2 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
3 才智杰;索南仁欠;;藏文分词算法研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
5 刘善峰;李雅;陶建华;;基于词位信息的HMM中文分词算法[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
中国硕士学位论文全文数据库 前10条
1 李良洁;基于统计和语义信息的中文分词算法研究[D];青岛科技大学;2015年
2 秦赞;中文分词算法的研究与实现[D];吉林大学;2016年
3 孟旭升;改进的中文分词算法在自动答疑系统中的应用研究[D];大连交通大学;2008年
4 王凯;中文分词算法在工程建设材料搜索中的研究与应用[D];大连交通大学;2010年
5 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年
6 张晓淼;基于神经网络的中文分词算法的研究[D];大连理工大学;2006年
7 陈宏彦;规则和统计相结合的分词算法[D];太原理工大学;2007年
8 刁毓;基于本体的中文分词算法的研究与实现[D];曲阜师范大学;2012年
9 贺艳艳;基于词表结构的中文分词算法研究[D];中国地质大学(北京);2007年
10 李腊腊;基于特殊标志符的中文分词算法研究[D];湖北工业大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026