收藏本站
《辽宁大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于词典和概率统计的中文分词算法研究

何爱元  
【摘要】:对于汉语的自然语言处理来说,汉语自动分词是文本分析的第一个步骤。目前的中文分词方法,可以分为基于词典的分词方法、基于统计的分词方法和基于理解的分词方法三种。基于理解的分词方法研究尚不成熟。如今,比较流行的方法是将词典的方法和统计的方法结合起来。中文分词面临的难点问题是未登录词的识别和歧义切分。 近年来,开发的大量的中文分词系统对中文分词中的未登录词识别,通常的做法是在分词系统中加入单独的未登录词识别模块,建立相关的规则来识别。这些分词系统对一些专有名词,如人名、地名、机构名等能够较好的识别,但是对于那些没有特殊规则的网络新词几乎不能识别,这在很大程度上影响了分词的精度。对于歧义切分,尽管近几年对歧义切分的准确率有所提高,但是歧义切分问题仍是迫切需要解决的问题。 这两年,字标注的分词方法,取得了很好的成绩。但是,它的分词成绩受限于训练语料类型与规模的分词模式,虽然是目前的研究主流,但这与实用分词的需求背道而驰。 因此本文采用了基于词典和概率统计的分词方法提高分词系统的实用性,并解决当前分词系统中急需解决的未登录词识别及歧义切分的问题。 本文主要做了两方面的改进: 第一,本文采用了与以往新词识别不同的角度对网络新词的识别做了相关研究,我们采用的方法是定期在互联网中采集不同领域的大量网页,用本文中的识别策略进行新词的识别。本文在识别新词中,对特殊标点符号中的词、文章关键词、超链接词汇等做了相关分析与研究。并将识别的新词添加到分词词典中,来扩充词典的词汇量。这对解决分词中的未登录词问题非常有效。最终来提高分词系统的分词准确率和召回率。 第二,本文在原有的n元语言模型的基础上,提出了逆向n元语言模型,并分析了n取3时能够使模型的性能最优。从而提出了一种基于双向三元语言模型的中文分词方法,然后在该语言模型中加入了词信息。本文中的基于双向三元模型含词位置信息的分词算法,能更好的处理汉语切分中的歧义问题。最后,通过实验比较,本文的分词系统在速度和精度上都能达到不错的效果。
【学位授予单位】:辽宁大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 李钝;曹元大;万月亮;;Internet中的新词识别[J];北京邮电大学学报;2008年01期
3 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
4 徐飞;孙劲光;;基于一种粗切分的最短路径中文分词研究[J];计算机与信息技术;2007年11期
5 杨琳;张建平;颜永红;;特定领域的汉语语言模型平滑算法比较研究[J];计算机工程与应用;2006年32期
6 刘丹;方卫国;周泓;;二元语法中文分词数据平滑算法性能研究[J];计算机工程与应用;2009年17期
7 何国斌;赵晶璐;;汉语文本自动分词算法的研究[J];计算机工程与应用;2010年03期
8 张海军;史树敏;朱朝勇;黄河燕;;中文新词识别技术综述[J];计算机科学;2010年03期
9 贾自艳,史忠植;基于概率统计技术和规则方法的新词发现[J];计算机工程;2004年20期
10 周蕾;朱巧明;;基于统计和规则的未登录词识别方法研究[J];计算机工程;2007年08期
中国博士学位论文全文数据库 前1条
1 肖镜辉;非时齐语言建模技术研究及实践[D];哈尔滨工业大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 秦学勇;;基于相似度计算的主观题阅卷系统设计[J];安徽建筑工业学院学报(自然科学版);2010年04期
2 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
3 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
4 杨尔弘;;媒体5年词语使用情况调查分析[J];北华大学学报(社会科学版);2011年04期
5 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
6 刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期
7 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
8 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
9 耿增民;刘万春;朱玉文;;受限领域的自动文摘方法研究[J];北京理工大学学报;2006年08期
10 黄美璇;;基于主题发现的舆情分析系统的设计与实现[J];北京联合大学学报(自然科学版);2012年01期
中国博士学位论文全文数据库 前10条
1 李颖玉;基于语料库的欧化翻译研究[D];上海外国语大学;2010年
2 刘运通;产品设计过程知识配送服务关键技术研究[D];浙江大学;2011年
3 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
4 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
5 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
6 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
7 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
8 曾晓洁;现代汉语母语教育演进研究[D];湖南师范大学;2011年
9 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
10 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 周宏宇;张政;;中文分词技术综述[J];安阳师范学院学报;2010年02期
2 董妍汝;;中文分词技术在搜索引擎中的应用[J];办公自动化;2010年04期
3 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
4 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期
5 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
6 于洪波;;中文分词技术研究[J];东莞理工学院学报;2010年05期
7 汤国锋;徐振伟;张华熊;;基于Lucene的中文分词技术研究[J];电脑编程技巧与维护;2012年10期
8 刘红芝;;中文分词技术的研究[J];电脑开发与应用;2010年03期
9 张磊;张代远;;中文分词算法解析[J];电脑知识与技术;2009年01期
10 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
中国博士学位论文全文数据库 前5条
1 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
2 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
3 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
4 张显;信息距离理论及其在问答系统中的应用研究[D];清华大学;2008年
5 宋玲;语义相似度计算及其应用研究[D];山东大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
3 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
4 段云峰,宋俊德,李剑威,舒华英;基于数量的关联规则挖掘[J];北京邮电大学学报;2002年04期
5 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
6 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
7 魏晓宁;;基于隐马尔科夫模型的中文分词研究[J];电脑知识与技术(学术交流);2007年21期
8 张瑞强,王作英,陆大 ;关于汉语音字转换中语言模型零概率的问题[J];电子学报;1998年08期
9 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
10 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
中国博士学位论文全文数据库 前1条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
【相似文献】
中国期刊全文数据库 前10条
1 张辉丽;孟昭鹏;王慧芝;;汉语自动分词中的歧义处理[J];微计算机应用;2006年06期
2 亢临生,张永奎;利用分词属性解决歧义切分[J];电脑开发与应用;1994年04期
3 王永景;刘功申;李生红;荆涛;;用于文本校对的分词与词性标注一体化算法[J];计算机技术与发展;2008年08期
4 张立岩;吕玲;王井阳;;基于最大熵算法的全文检索研究[J];河北科技大学学报;2009年02期
5 盛启东;谭守标;徐超;冯二媛;陈军宁;;巧用黑盒法逆推百度中文分词算法[J];计算机技术与发展;2010年04期
6 方冰;张一中;;高性能FTP搜索引擎的设计[J];南京邮电大学学报(自然科学版);2007年03期
7 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
8 赵亚慧;;基于编辑距离的中文机构名简称检索方法研究[J];内蒙古科技与经济;2010年07期
9 周文刚;孙挺;;Web页文本信息语义过滤系统设计与实现[J];周口师范学院学报;2007年02期
10 谢红薇;王栋;;基于Web文本挖掘中的一种中文分词算法研究[J];电脑开发与应用;2007年07期
中国重要会议论文全文数据库 前10条
1 王兰成;田梅;侯双;;PLS:一种基于信息自动标引的最小推进分词算法及其实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 林小俊;田浩;王馨浩;杜蕴璇;许敏;吴玺宏;迟惠生;;语言模型训练语料处理方法及解码词典的设计[A];第八届全国人机语音通讯学术会议论文集[C];2005年
3 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
6 江涛;于洪志;李刚;;基于藏文网页的网络舆情监控系统研究[A];全国计算机安全学术交流会论文集(第二十三卷)[C];2008年
7 魏华武;蔡莲红;;汉语普通话全音语句合成系统及其语音编码方法[A];第二届全国人机语音通讯学术会议论文集[C];1992年
8 陈晓苏;邹园斌;张文珂;;全切分图与路径表达式在分词算法中的应用[A];第三届学生计算语言学研讨会论文集[C];2006年
9 刮俊杰;吴树国;伊胜伟;;基于词效应的中文术语提取方法[A];第三届中国智能计算大会论文集[C];2009年
10 孙亚夫;陈文斌;;基于分词的地址匹配技术[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
2 田学东;光学公式识别技术研究[D];河北大学;2007年
3 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
中国硕士学位论文全文数据库 前10条
1 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年
2 王凯;中文分词算法在工程建设材料搜索中的研究与应用[D];大连交通大学;2010年
3 刁毓;基于本体的中文分词算法的研究与实现[D];曲阜师范大学;2012年
4 付敏;一个改进的中文分词算法及其在Lucene中的应用[D];华中科技大学;2010年
5 朱世猛;中文分词算法的研究与实现[D];电子科技大学;2011年
6 韩雪冬;基于CRFs的中文分词算法研究与实现[D];北京邮电大学;2010年
7 李畅;智能问答系统在高中物理教学中的应用[D];陕西师范大学;2011年
8 孙博雅;中文分词算法在GIS中的应用研究[D];中南大学;2011年
9 马东;基于Nutch搜索引擎的中文分词算法研究与实现[D];内蒙古农业大学;2011年
10 范敏敏;企业经营范围字段自动分类方法研究[D];哈尔滨工业大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026