收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文自动分词系统的研究与实现

周程远  
【摘要】: 所谓中文分词,就是将中文语句中的词汇切分出来的过程。由于汉语的书写习惯,汉语语句中词与词之间的标志是隐含的,英文的单词与单词之间有空格,所以不存在分词问题。而中文的每一句中,词与词之间是没有空格的,因而必须采用某种技术将其分开。中文文本自动分词算法从20世纪80年代以来就一直是一个研究热点,由于中文语言的复杂性使之一直处于发展阶段。 近年来,国内外众多学者在中文分词领域做了大量研究工作,取得了一定的研究成果。目前中文分词算法各有优劣,很难绝对地比出高低,所以,中文分词的算法更多时候需要同实际的应用相结合。到目前为止,中文分词包括三类算法:1)基于字符串匹配的分词;2)基于理解的分词;3)基于统计的分词。这些算法各有优劣,还无法证明哪一种方法更准确,它们都有自己技术上特点和用途上的区别。其中基于理解的分词研究还处于未成熟阶段。 分词技术作为自然语言处理的基础环节,同时也是关键环节之一,它的质量好坏直接影响到后续处理步骤的效果。中文分词工作看似细微,但作为计算机自然语言处理的第一步,它的关键作用是不容忽视的。如今中文分词已成为自然语言处理的研究热点与难点。 本文通过对多种中文分词算法进行比较、研究,改进了传统机械分词中的词典结构,提出了基于词库和统计的中文分词算法,从而提高了分词的正确率和效率。该算法将基于统计的无词典分词算法与机械分词方法相结合,改善了机械分词新词识别能力差的问题。由于分词过程主要还是基于机械分词,所以在正确率提高的情况下,仍然能够快速分地分词,随后在本文中所提出算法的基础上,设计开发了一套中文自动分词系统,该系统不仅可以完成对汉语的分词工作,还能比较各种算法的特点,有利于分析和研究。系统中所涉及到的算法也能够很好地为其它应用系统服务。 本论文的主要叙述过程如下: 首先,介绍了中文分词的概念、应用领域以及面临的难题,列举了现在常用的中文分词算法,并进行了简单的比较。 其次,在现有算法基础上,结合了传统机械分词和基于统计方法分词各自的优点,提出了基于词库和统计相结合的中文分词算法。在保证分词速度的同时,也提高了结果的准确率。 再次,在基于词典和统计的中文分词算法的基础上,设计并运用Java Web技术实现了中文分词系统。该系统不仅完成了中文分词工作,还能够比较不同算法之间的分词速度,可以验证本文算法的优越性。 最后,对论文各项工作进行了总结,并展望了需要进一步改进的工作。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 高洁羽,吕强,杨季文,钱培德;自动分词在输入法测试系统中的应用[J];电化教育研究;2003年02期
2 王彩荣;汉语自动分词专家系统的设计与实现[J];微处理机;2004年03期
3 刘开瑛;现代汉语自动分词评测技术研究[J];语言文字应用;1997年01期
4 王彩荣,李晓毅,黄玉基;汉语自动分词系统的评价[J];微处理机;2003年05期
5 徐华中;徐刚;;一种新的汉语自动分词算法的研究和应用[J];计算机与数字工程;2006年02期
6 付海辰;;网页文本自动分词的有词典方法[J];华章;2011年05期
7 黄昌宁;自动分词[J];语言文字应用;1997年01期
8 王巍;;基于Perl的汉语自动分词算法研究[J];中州大学学报;2007年01期
9 罗洋;;汉语自动分词方法的综述[J];科技信息;2009年07期
10 陈顺强;;彝文自动分词技术研究[J];中文信息学报;2011年03期
11 曹焕光,郑家恒;自动分词软件质量的评价模型[J];中文信息学报;1992年04期
12 章森,宗成庆,陈肇雄,黄河燕;语句拼音-汉字转换的智能处理机制分析[J];中文信息学报;1998年02期
13 郑延斌;自动分词中的歧义处理[J];微型机与应用;1998年06期
14 傅立云;刘新;;基于词典的汉语自动分词算法的改进[J];情报杂志;2006年01期
15 王中立;;汉语自动分词中切分歧义及处理技术[J];许昌学院学报;2006年02期
16 付海辰;;基于二字词检测位图表的MM自动分词算法[J];信息与电脑(理论版);2011年03期
17 辛浩;;基于关联规则的中文姓名识别方法[J];宿州学院学报;2011年05期
18 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
19 贺胜;卢亚军;;面向大规模语料库的全文检索系统研究[J];图书与情报;2008年04期
20 李萍;;试论现代汉语词语的切分技术[J];中国新技术新产品;2010年24期
中国重要会议论文全文数据库 前10条
1 徐艳华;;面向自动分词的三音节新词语构词法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李小明;王亚莉;易立夫;杨静;孙金城;;自动分词中的单字虚词处理[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年
3 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 孙承杰;黄昌宁;关毅;;基于标注语料库的组合歧义检测与消解[A];第三届学生计算语言学研讨会论文集[C];2006年
5 高璐;陈琪;李永宏;于洪志;;藏语语音合成中本文分析的若干问题研究[A];第九届中国语音学学术会议论文集[C];2010年
6 黄昌宁;林娟;孙承杰;;何谓金本位[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 郑泽之;;中文自动分词的一些问题[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 钱揖丽;张虎;;汉语分词及词性标注自动校验方法研究[A];第一届学生计算语言学研讨会论文集[C];2002年
10 罗智勇;宋柔;荀恩东;;一种基于可信度的人名识别方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前2条
1 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
2 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
中国硕士学位论文全文数据库 前10条
1 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
2 普布旦增;藏文自动分词技术方法研究[D];西藏大学;2010年
3 段倩倩;面向信息处理的带典型前缀派生词的识别分析[D];上海师范大学;2010年
4 史迎馨;建筑图中有限自然语言的分析与理解的研究[D];长春工业大学;2010年
5 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
6 刘宽;现代汉语自动分词歧义分析及其消歧处理研究[D];兰州理工大学;2006年
7 杨孝光;中文文本自动分类系统研究—汉语分词及分类器的设计[D];电子科技大学;2004年
8 付蕾;知识元标引系统的设计与实现[D];华中师范大学;2009年
9 张敏;基于Internet的个性化信息检索关键技术研究[D];燕山大学;2006年
10 陈云;基于受限汉语和模块组合的自动程序设计研究[D];重庆大学;2008年
中国重要报纸全文数据库 前5条
1 王萍;Web文本的知识化管理[N];计算机世界;2006年
2 教育部语信司;语言资源监测与服务论坛举行[N];语言文字周报;2010年
3 田梦;软件篇软件只是工具[N];计算机世界;2007年
4 实习生 康晨;网络没有唯一:国内中文搜索引擎之比较[N];中国消费者报;2005年
5 教育部语信司;国家语言资源监测与研究中心召开2007数据发布专题研讨会[N];语言文字周报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978