收藏本站
《郑州大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本自动分词技术与算法研究

许荣荣  
【摘要】: 中文文本自动分词技术是中文信息处理的重要环节,中文文本自动分词算法与中文分词系统的性能紧密相关。目前的分词算法可以分为基于字符串匹配的分词算法、基于统计的分词算法以及基于理解的分词算法三种。 目前中文文本自动分词技术的难点和重点问题是歧义识别和未登录词的识别问题,本篇论文第二章详细介绍其形成原因并提出了积极的分词对策和建议。第三章对主流的分词算法,如最大匹配算法、统计分词算法、专家系统法以及神经元网络法等,从歧义识别、未登录词识别精度、算法复杂度等技术原理层面进行深入细致地介绍和分析研究。 本篇论文在认真研究最大匹配算法的基础上提出了改进算法,在第四章做了重点论述。该方法首先对待切文本进行预处理,利用自然的分割符号对文本进行自动切分,有效支持了对中文、英文、数字的混合切分,提高了分词效率;然后利用正向匹配、回溯匹配和尾词匹配,能有效发现交集型歧义字段。通过实验,本改进算法在时间复杂度和切分精度方面都有了较大的提高。
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 辛浩;;基于关联规则的中文姓名识别方法[J];宿州学院学报;2011年05期
2 洪虹;李波;;汉语自动分词研究进展[J];魅力中国;2009年22期
3 王军辉;;汉语自动分词研究进展[J];魅力中国;2009年30期
4 李丽双;黄德根;毛婷婷;徐潇潇;;基于支持向量机的中国人名的自动识别[J];计算机工程;2006年19期
5 焦慧;刘迁;贾惠波;;基于词平台汉字编码的自动标引研究[J];计算机工程与应用;2007年15期
6 李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期
7 焦慧;刘迁;贾惠波;;一种基于词编码的中文文档格式[J];计算机科学;2008年10期
8 徐进鸿,邵品洪,李明霞;情报检索数学模型及若干技术进展[J];现代图书情报技术;1990年03期
9 高洁羽,吕强,杨季文,钱培德;自动分词在输入法测试系统中的应用[J];电化教育研究;2003年02期
10 王彩荣;汉语自动分词专家系统的设计与实现[J];微处理机;2004年03期
中国重要会议论文全文数据库 前10条
1 徐艳华;;面向自动分词的三音节新词语构词法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[A];浙江省电子学会2010学术年会论文集[C];2010年
3 徐幸;王厚峰;;中文文本蕴含的推理模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 齐攀;陈晓云;;一种基于统计信息的无字典中文文本特征提取算法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 李小明;王亚莉;易立夫;杨静;孙金城;;自动分词中的单字虚词处理[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年
6 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 孙承杰;黄昌宁;关毅;;基于标注语料库的组合歧义检测与消解[A];第三届学生计算语言学研讨会论文集[C];2006年
8 肖志文;陈伟;梁久祯;雷彬;;基于LZW算法的中文文本压缩算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
9 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
10 高璐;陈琪;李永宏;于洪志;;藏语语音合成中本文分析的若干问题研究[A];第九届中国语音学学术会议论文集[C];2010年
中国重要报纸全文数据库 前10条
1 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
2 吴子桐;整理英文国故,说明真实中国[N];中华读书报;2010年
3 赛迪评测计算机外围设备实验室;支持无线打印[N];中国计算机报;2003年
4 ;健康、成本兼顾[N];中国计算机报;2004年
5 王萍;Web文本的知识化管理[N];计算机世界;2006年
6 教育部语信司;语言资源监测与服务论坛举行[N];语言文字周报;2010年
7 赛迪评测硬件评测事业部计算机外设实验室;“精”工出“细”活[N];中国计算机报;2003年
8 记者 齐泽萍;我省科技之花含苞待放[N];山西经济日报;2002年
9 赛迪评测外设测试实验室;Canonxnu i320喷墨打印机[N];中国计算机报;2002年
10 赛迪评测计算机外围设备实验室;Epson Stylus Photo 915彩色喷墨打印机[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
2 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
3 徐迎晖;文本载体信息隐藏技术研究[D];北京邮电大学;2006年
4 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
5 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
8 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
9 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
10 张冬梅;文本情感分类及观点摘要关键问题研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
2 党蕾;中文文本多粒度情感分类计算的研究[D];西北大学;2010年
3 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
4 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
5 许林杰;中文文本分词研究[D];山东师范大学;2003年
6 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
7 许君宁;基于知网语义相似度的中文文本聚类方法研究[D];西安电子科技大学;2010年
8 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
9 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
10 马国俊;潜在语义索引在中文文本聚类中的应用研究[D];西安建筑科技大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026