收藏本站
《吉林大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本自动分类系统的研究与实现

张桂林  
【摘要】: 本文的第一章介绍了自动文本分类技术的产生背景及其意义,介绍了自动文本分类的问题描述、评价方法以及技术的种类,并在最后部分介绍了国外该技术的研究现状。 第二章介绍了中文文本自动分类的技术基础。 第三章介绍了文本分类的关键技术,对文本分类中的文本的表示、 特征项的提取、训练算法和分类算法以及阈值的确定都作了较为详细的阐述。 第四章是本论文的重点,在本章中,集中介绍了本人所作的工作。首先对于分词歧义处理的情况进行了分析,并提出了基于上下文的双向扫描分词算法。然后,对于目前通用的tfc加权法的不足之处进行了分析,并引进χ2统计量参与项的权值的计算。除此之外,在文本分类过程中,目前传统的做法是所有类别都具有同一个特征项集,但这样做使得有些类别的特征概括不全或者所选出的特征并不具备区分类别的能力。为此,本文提出了这样一种思想,即对于每一个文本类别,都单独赋予一个特征项集,并且对于同一个词项在不同类别所对应的特征项集中的权重都不尽相同。并在随后将项的类内文档频率的概念引入项的权重计算当中,进一步提高了特征项对于文本分类的有效性。关于文本分类算法,提出了项打分分类算法。 最后在第五章,通过实验证明了改进后的权重计算方法的优越性,同时也证明了项打分分类算法的可行性。
【学位授予单位】:

知网文化
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978