收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向中文网络信息检索的自动分词系统设计与算法实现

张彬  
【摘要】: 中文分词作为中文信息处理的基础,已经吸引了众多国内外计算机专家的极大兴趣,同时也涌现出了许多中文分词系统。目前汉语自动分词方法主要包括基于字符串匹配的方法、基于统计的方法和基于理解的方法。 本文从理论上分析和比较了目前的各种汉语自动分词方法,对各种分词方法的技术特点进行了阐述,对自动分词发展现状和趋势作了概括性的总结。在系统设计上,阐述了适合本系统的分词方法和分词模块预期达到的性能指标,详细描述了汉语自动分词系统各个模块的具体设计,包括总体设计以及各模块设计等,同时给出了一些关键性的例程说明和程序设计的关键点总结。 本文还对分词算法作出一定的研究探索。在深入分析现有自动分词算法的基础上,着重研究了基于字符串匹配的汉语自动分词算法,引入双向匹配法预处理分词,同时运用词频统计方法进行歧义切分和未登录词识别。 基于上述研究结果,设计并实现了一个面向实际应用的中文自动分词系统。实验结果表明:在相同条件下,结合词频统计与规则处理后的匹配分词算法,较原算法分词速度更快。利用卡耐基梅隆大学分词评估系统进行评测,评测结果表明,改进后的匹配分词算法的查准率提高了3.57%,综合测度值提高了0.01,较原算法具有更好的性能。系统且具有较好的稳定性。 本文所包含的内容完全是面向应用的,具体的技术选择与整体的设计思想完全根据实际的应用需求而定,采用的都是比较成熟的技术,实现了理论联系实际。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨波,胡俊华,李金屏;一种复合式中文信息过滤机制[J];小型微型计算机系统;2003年07期
2 蒋发群,周经野,曹娟;隐式分词的中文输入法及其实现[J];湘潭大学自然科学学报;2003年03期
3 王东;陈笑蓉;;一种改进的高效分词词典机制[J];贵州大学学报(自然科学版);2007年04期
4 朱小娟;陈特放;;词频统计中文分词技术的研究[J];仪器仪表用户;2007年03期
5 张桂平;刘东生;尹宝生;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[J];中文信息学报;2010年03期
6 朱华;中文搜索引擎结构初探[J];情报科学;2001年11期
7 席志刚;陶洋;;对搜索引擎作弊现象的分析[J];电子商务;2007年06期
8 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期
9 ;六大中文搜索引擎简介[J];中国农业会计;2008年11期
10 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
11 冯书晓,徐新,杨春梅;国内中文分词技术研究新进展[J];情报杂志;2002年11期
12 费洪晓;胡海苗;巩燕玲;;基于Hash结构的机械统计分词系统研究[J];计算机工程与应用;2006年05期
13 王凡秀;王自强;;汉语自动分词技术研究[J];计算机与数字工程;2008年11期
14 李志蜀,李果;中文搜索引擎的原理剖析及开发实现技术[J];计算机应用研究;2001年11期
15 张锦炘;;基于Nutch的中文搜索引擎的构建[J];图书馆研究与工作;2009年01期
16 ;中文搜索引擎全家福[J];电脑爱好者;2002年19期
17 邱均平,文庭孝,周黎明;汉语自动分词与内容分析法研究[J];情报学报;2005年03期
18 云昌英;智能中文搜索引擎助您网上游[J];电脑;1997年07期
19 ;中文搜索引擎浅析[J];网络与信息;1999年08期
20 ;中文搜索引擎的比较研究[J];软件世界;2000年10期
中国重要会议论文全文数据库 前10条
1 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
2 黄明初;陆旭安;潘雄伟;钟威;;中文分词技术在档案智能搜索中的应用[A];广西计算机学会2010年学术年会论文集[C];2010年
3 孙茂松;;汉语自动分词研究及其应用:回顾与展望[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
4 汪华峰;陈峪;;汉语自然语言理解中词切分中新词问题初探[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
5 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 靳光瑾;富丽;;中文语料库建设——标准制定和质量检查[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
7 ;中国中文信息学会交流材料[A];2011年网络学术交流研讨会交流材料[C];2011年
8 潘雪莲;;词频统计在词典收词中的作用[A];中国辞书论集2001[C];2001年
9 ;前言[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国博士学位论文全文数据库 前10条
1 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
2 武文杰;现代汉语视觉行为动词研究[D];山东大学;2008年
3 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
4 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
5 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
6 周卫华;面向中文信息处理的现代汉语动宾语义搭配研究[D];华中师范大学;2007年
7 詹卫东;面向中文信息处理的现代汉语短语结构规则研究[D];北京大学;1999年
8 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年
9 李琼;汉语复句书读前后语言片段的非分句识别[D];华中师范大学;2008年
10 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
中国硕士学位论文全文数据库 前10条
1 张彬;面向中文网络信息检索的自动分词系统设计与算法实现[D];华东师范大学;2007年
2 王靖;基于机械切分和标注的中文分词研究[D];湖南大学;2009年
3 罗万;基于生成性词库分词技术的汉语拼音自动转换研究[D];湖南师范大学;2009年
4 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
5 黄立冬;基础教育资源搜索引擎中的中文分词技术研究[D];南京师范大学;2006年
6 鲁骁;基于条件随机场的中文分词技术的研究与实现[D];华中科技大学;2011年
7 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
8 彭倞;面向中文文本的P2P信息检索系统的研究[D];华中科技大学;2007年
9 陶东成;基于Linux和XIM协议的中文输入法服务器的实现及其应用[D];苏州大学;2004年
10 罗忠毅;数字化中医古籍的理想模式及其相关问题研究[D];成都中医药大学;2005年
中国重要报纸全文数据库 前10条
1 上海 朱玉;为IE定制中文搜索引擎[N];电子报;2001年
2 网易公司联合首席技术执行官 许良杰;浅谈新一代中文搜索引擎[N];国际金融报;2000年
3 雨田;百度推出中文搜索引擎[N];通信产业报;2000年
4 记者 梁捷;我国中文信息处理技术从实验室走向全面应用[N];光明日报;2009年
5 姚双云 华中师范大学语言与语言教育研究中心;虚词知识库:中文信息处理的基石[N];中国社会科学报;2011年
6 倪光南;活力重现的中文信息处理[N];计算机世界;2001年
7 齐悦;速记界泰斗唐亚伟 获中文信息处理领域最高科技奖[N];中国质量报;2006年
8 记者 孙进;谷歌退出等待“三巨头”决策[N];第一财经日报;2010年
9 李斌;新型中文搜索引擎面世[N];福建日报;2000年
10 孙爽 清华大学经济外交研究中心;Google退出风波的背后[N];中国社会科学报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978