收藏本站
《西北大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

中文分词算法的研究与实现

林冬盛  
【摘要】:中文分词是按照特定的规范将汉语中连续的字序列切分为合理的词序列的过程。作为自然语言处理基础性任务,中文分词已经被广泛应用在相关领域中。因此,研究中文分词算法具有重要的理论和现实意义。 为了满足上层应用对分词实用性要求,本文将机械分词和基于统计的分词法有机结合,提出了基于词典和统计规则的中文分词算法。该算法首先使用切分速度快的机械分词法对预处理后的文本进行初步切分,采用改进的双向最大匹配检测法检测出歧义字·段,并运用基于二元统计模型的全切分消解歧义。其次,采用基于角色的命名实体识别方法识别出未登录词。最后,引入规则库对分词结果进一步修正。本文的研究工作主要有: 1)采用二次索引的词典结构,提升词典查找速度,使用Java对象序列化技术实现词典文件的加载(反序列化)和词典对象的序列化。 2)在歧义检测方面,提出了改进的双向最大匹配检测算法,不仅能检测到链长为奇数的歧义字段,而且能检测出所有同时满足链长为偶数且交段长度为1的歧义字段。在歧义字段上,采用全切分法消解歧义。 3)在未登录词识别方面,将隐马尔科夫模型中解决编码问题的前向Viterbi算法用以角色标注,采用角色模式集上的模式串匹配出中文专有名词。使用一个小型校正规则库进行分词碎片的修正。 4)目前中文分词软件包大都以C++语言开发,而作为主流开发语言之一的Java,其中文分词组件相对较少。因此,在分词算法的研究基础上,设计并实现了支持Java语言的中文自动分词系统。 实验表明,该中文分词算法在CPU3.0GHZ,内存2GB的环境下,切分速度约为21000字/秒,分词准确性指标F-1值达到了95%左右,基本能够满足大部分上层应用的要求。
【学位授予单位】:西北大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前1条
1 羊毛卓玛;高定国;;藏文自动分词中未登录词处理方法研究[J];计算机工程;2012年17期
中国硕士学位论文全文数据库 前3条
1 张晓彩;基于K-means的中文文本精确聚类算法研究[D];燕山大学;2012年
2 刘立勋;基于本体的语义搜索技术在Web题库中的应用[D];哈尔滨工程大学;2012年
3 朱福勇;基于语义分析的信息检索技术的研究[D];哈尔滨工程大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
2 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
3 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
4 罗智勇;宋柔;;现代汉语通用分词系统中歧义切分的实用技术[J];计算机研究与发展;2006年06期
5 贺敏;龚才春;张华平;程学旗;;一种基于大规模语料的新词识别方法[J];计算机工程与应用;2007年21期
6 李天侠;戴新宇;陈家骏;;基于混合模型的交集型歧义消歧策略[J];计算机工程与应用;2008年21期
7 刘丹;方卫国;周泓;;二元语法中文分词数据平滑算法性能研究[J];计算机工程与应用;2009年17期
8 张庆扬;柴胜;;使用二级索引的中文分词词典[J];计算机工程与应用;2009年19期
9 张劲松;袁健;;回溯正向匹配中文分词算法[J];计算机工程与应用;2009年22期
10 路斌,杨建武,陈晓鸥;一种基于SVM的多层分类策略[J];计算机工程;2005年01期
【共引文献】
中国期刊全文数据库 前10条
1 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
2 周宏宇;张政;;中文分词技术综述[J];安阳师范学院学报;2010年02期
3 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
4 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
5 唐振民,靳从,杨静宇;档案文献主题词微机自动标引系统[J];兵工自动化;1993年02期
6 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
7 王玉美,阮晓钢;基于人的语言认知行为的汉语文法分析专家系统[J];北京工业大学学报;2003年01期
8 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
9 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
10 易军凯;颜婷婷;;垃圾邮件的改进贝叶斯过滤算法[J];北京化工大学学报(自然科学版);2008年06期
中国重要会议论文全文数据库 前10条
1 梁莹;肖健;李玥;;多引擎印刷体汉字识别系统研发[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
2 王宏生;孙美玲;李家峰;;隐马尔科夫模型在构建语言模型中的应用[A];创新沈阳文集(A)[C];2009年
3 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 吴悦;燕鹏举;翟鲁峰;;一种基于二元背景模型的新词发现方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
7 吴悦;燕鹏举;翟鲁峰;;基于二元背景模型的新词发现[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
8 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
9 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
10 朱春江;陆宇旻;李陶深;杜衡斌;唐晟;;分布式网络监控系统中网页安全挖掘的研究[A];广西计算机学会2008年年会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 晁冰;基于支持向量机的软件可靠性模型分类及失效分析[D];武汉大学;2010年
2 刘运通;产品设计过程知识配送服务关键技术研究[D];浙江大学;2011年
3 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
4 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
5 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
6 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
7 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
8 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
9 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
10 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
3 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
4 吕韶华;面向中文评论文本的情感倾向性研究[D];大连理工大学;2010年
5 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
6 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
7 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
8 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
9 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
10 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
3 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
4 蔡勇智;;未登录词识别算法的改进[J];福建电脑;2006年03期
5 李哲;张海鸥;;基于本体的信息检索模型研究[J];航空计算技术;2009年06期
6 蒋健棠;;负熵的零代价——从无序中创造有序[J];河南理工大学学报(自然科学版);2010年02期
7 赵鹏;蔡庆生;;一种基于《知网》的中文文本聚类算法的研究[J];计算机工程与应用;2007年12期
8 陈龙;范瑞霞;高琪;;基于概念的文本表示模型[J];计算机工程与应用;2008年20期
9 路斌,杨建武,陈晓鸥;一种基于SVM的多层分类策略[J];计算机工程;2005年01期
10 梁以敏,黄德根;基于完全二阶隐马尔可夫模型的汉语词性标注[J];计算机工程;2005年10期
中国博士学位论文全文数据库 前4条
1 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
2 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
3 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
4 唐东明;聚类分析及其应用研究[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前8条
1 兰冲;基于统计规则的中文分词研究[D];西安电子科技大学;2011年
2 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
3 付雪峰;基于模糊—粗糙集的文本分类模型[D];江西师范大学;2005年
4 秦嘉伟;基于本体的信息检索方法研究[D];上海交通大学;2007年
5 张功杰;基于本体的领域资源语义检索研究[D];暨南大学;2007年
6 陈静;基于本体的信息抽取研究[D];苏州大学;2007年
7 孔德冉;基于领域Ontology的Web信息抽取研究[D];东北师范大学;2009年
8 丁鹏宇;本体在信息检索中的应用及其进化机制研究[D];华东师范大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
2 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
5 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期
6 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
7 王东;陈笑蓉;;一种改进的高效分词词典机制[J];贵州大学学报(自然科学版);2007年04期
8 蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期
9 马哲,姚敏;一种改进的基于PATRICIA树的汉语自动分词词典机制[J];华南理工大学学报(自然科学版);2004年S1期
10 吴育良;;百度中文分词技术浅析[J];河南图书馆学刊;2008年04期
中国重要会议论文全文数据库 前4条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国硕士学位论文全文数据库 前1条
1 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
【相似文献】
中国期刊全文数据库 前10条
1 王坚,赵恒永;专业搜索引擎中文分词算法的实现与研究[J];福建电脑;2005年07期
2 谢红薇;王栋;;基于Web文本挖掘中的一种中文分词算法研究[J];电脑开发与应用;2007年07期
3 何莘;王琬芜;;自然语言检索中的中文分词技术研究进展及应用[J];情报科学;2008年05期
4 李学俊;;基于分词算法&VSM的文本主观题自动评分算法研究[J];电脑知识与技术;2011年25期
5 张辉丽;孟昭鹏;王慧芝;;汉语自动分词中的歧义处理[J];微计算机应用;2006年06期
6 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
7 冼健;莫玄朗;奚建清;;基于问题模式匹配的智能答疑系统原型[J];山东大学学报(理学版);2006年03期
8 亢临生,张永奎;利用分词属性解决歧义切分[J];电脑开发与应用;1994年04期
9 王永景;刘功申;李生红;荆涛;;用于文本校对的分词与词性标注一体化算法[J];计算机技术与发展;2008年08期
10 宋国柱;陈俊杰;;基于双字词的动态最大匹配分词算法的研究[J];太原科技大学学报;2009年03期
中国重要会议论文全文数据库 前10条
1 王兰成;田梅;侯双;;PLS:一种基于信息自动标引的最小推进分词算法及其实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
3 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
4 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 林小俊;田浩;王馨浩;杜蕴璇;许敏;吴玺宏;迟惠生;;语言模型训练语料处理方法及解码词典的设计[A];第八届全国人机语音通讯学术会议论文集[C];2005年
6 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 姜文斌;王志洋;刘群;吕雅娟;;基于马尔可夫间隔标注的中文分词算法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
10 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前10条
1 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
2 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
3 记者 薛亚芳;就业机会近三成因供求错位而流失[N];人才市场报;2007年
4 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
5 仇职;北京缺口最大的十大职业[N];北京科技报;2003年
6 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
7 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
8 记者 杨朝晖;医药搜索:不再“众里寻他千百度”[N];科技日报;2007年
9 刘 军;职业匹配问题值得特别关注[N];经济参考报;2003年
10 王翌;互联网2005:个性化生存[N];计算机世界;2005年
中国博士学位论文全文数据库 前10条
1 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
2 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
3 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
4 田学东;光学公式识别技术研究[D];河北大学;2007年
5 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
6 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
7 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
8 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
9 刘岩;关于图的最大匹配问题的若干结果[D];郑州大学;2000年
10 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年
2 刁毓;基于本体的中文分词算法的研究与实现[D];曲阜师范大学;2012年
3 付敏;一个改进的中文分词算法及其在Lucene中的应用[D];华中科技大学;2010年
4 李畅;智能问答系统在高中物理教学中的应用[D];陕西师范大学;2011年
5 王凯;中文分词算法在工程建设材料搜索中的研究与应用[D];大连交通大学;2010年
6 韩雪冬;基于CRFs的中文分词算法研究与实现[D];北京邮电大学;2010年
7 马东;基于Nutch搜索引擎的中文分词算法研究与实现[D];内蒙古农业大学;2011年
8 朱世猛;中文分词算法的研究与实现[D];电子科技大学;2011年
9 范敏敏;企业经营范围字段自动分类方法研究[D];哈尔滨工业大学;2010年
10 孙博雅;中文分词算法在GIS中的应用研究[D];中南大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026