收藏本站
《吉林大学》 2006年 硕士论文
收藏 | 手机打开
二维码
手机客户端打开本文

词典与后缀数组相结合的中文分词

张淑梅  
【摘要】: 中文分词是中文信息处理领域的一项基础性课题,中文分词中遇到的主要问题:建立完善的词表,歧义的消解,未登录词的识别。中文分词方法主要有基于字符串匹配的分词方法,基于理解的分词方法和基于统计的分词方法。 基于词典的分词方法的突出的特点是分全率和准确率很高,但是信息处理速度慢,不能够解决新生词和专有名词,而且会出现歧义问题。基于后缀数组的无词典分词方法能消解歧义,识别未登录词。但这种方法也有一定的局限性,它只能识别文档中的中高频词,对于在文档中只出现一次的词却无能为力。基于以上分析,本文提出了一种新的分词算法—词典与后缀数组相结合的中文分词。使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用基于后缀数组的无词典的分词方法识别一些新词,即将基于后缀数组和串匹配方法结合起来,即发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别新生词,自动消除歧义的优点。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
2 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
3 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
4 韩月阳;邓世昆;贾时银;李远方;;基于字分类的中文分词的研究[J];计算机技术与发展;2011年07期
5 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期
6 阴桂梅;郭广行;;智能答疑系统模型设计[J];电脑开发与应用;2011年07期
7 刘晓星;胡畅霞;;WEB中文本信息检索的关键技术研究[J];硅谷;2011年16期
8 杨春明;韩永国;;快速的领域文档关键词自动提取算法[J];计算机工程与设计;2011年06期
9 谷俊;王昊;;基于领域中文文本的术语抽取方法研究[J];现代图书情报技术;2011年04期
10 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
11 孙凯;;面向古建动画自动生成的中文自然语言处理[J];网络安全技术与应用;2011年09期
12 佟兴帆;邓辉宇;李志明;;上海光源产品管理系统及其全文检索子系统的改进[J];核技术;2011年07期
13 李玉峰;郜晓晶;;中文垃圾邮件过滤综合方法[J];计算机应用与软件;2011年08期
14 赵珂;逯鹏;李永强;;基于Lucene的搜索引擎设计与实现[J];计算机工程;2011年16期
15 陈国华;汤庸;彭泽武;李建国;;基于学术社区的学术搜索引擎设计[J];计算机科学;2011年08期
16 姚飞;纪磊;张成昱;陈武;;实时虚拟参考咨询服务新尝试——清华大学图书馆智能聊天机器人[J];现代图书情报技术;2011年04期
17 邹燕飞;于成尊;赵亮;;基于Lucene的文本搜索引擎的设计和实现[J];计算机与现代化;2011年09期
18 付光;;面向招聘信息主题搜索引擎的研究与设计[J];广西教育;2011年18期
19 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
20 孔云;杨婷;;开源信息检索技术在高校图书馆的应用——以昆明理工大学图书馆为例[J];湖南科技学院学报;2011年08期
中国重要会议论文全文数据库 前10条
1 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
3 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
7 朱晓旭;;汉字输入教学系统中词组切分方法的设计[A];中国中文信息学会汉字编码专业委员会第八届年会、中国计算机学会中文信息技术专业委员会第六届年会暨汉字输入技术与应用研讨会论文集[C];2002年
8 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年
9 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
10 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
4 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
5 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
6 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
7 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
8 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
9 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
10 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 张淑梅;词典与后缀数组相结合的中文分词[D];吉林大学;2006年
2 郭庆贺;中文文本姓名识别的研究[D];东北师范大学;2009年
3 何爱元;基于词典和概率统计的中文分词算法研究[D];辽宁大学;2011年
4 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
5 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
6 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
7 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
8 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
9 李培国;基于人工神经网的中文垃圾邮件过滤器的设计与实现[D];暨南大学;2007年
10 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
中国重要报纸全文数据库 前10条
1 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
2 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
3 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
4 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
5 记者 杨朝晖;医药搜索:不再“众里寻他千百度”[N];科技日报;2007年
6 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
7 张韬;谷歌推出“谷歌拼音”力拼百度[N];上海证券报;2007年
8 王翌;互联网2005:个性化生存[N];计算机世界;2005年
9 李永胜;在中文网页搜索质量上 Google险胜百度[N];中国计算机报;2007年
10 记者 李霆钧;国内首个“影视剧植入广告分析系统”出炉[N];中国电影报;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978