收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于特征选择和特征加权算法的文本分类研究

石慧  
【摘要】:随着互联网这一新型的信息传播方式的迅速普及,人们不仅可以轻而易举地获得全世界你想要的信息,还可以向全世界传递你所拥有的信息,人们在互联网上可获取的信息资源呈现爆炸式增长。同时,随着平板电脑、智能手机等网络终端的推出,以及各种社交网络的出现,如人人网、微博、微信、各种招聘网站和各种婚恋网站等等,更大大加快了互联网上数据信息增加的步伐。人们每天都会在这些应用上不断更新着各种各种的数据,文字、图片、视频信息等。有数据显示,互联网上每天都会有指数级的信息数据出现,人们已经处在一个信息极为膨胀的年代。面对这样如此庞大的信息资源,如何对其进行有效合理的管理,使人们获取目标信息更为方便快捷,已经成为研究的热点。而文本挖掘中的文本分类技术有效的解决了这一问题。 文本分类是一项非常复杂的工程,本文在对其各个流程进行仔细了解分析之后,重点研究了特征降维和特征加权两方面的过程。 经过文本预处理后的文本被表示为一个具有高维度和稀疏性的特征项向量空间,这不但增加了分类的时间复杂度和空间复杂度而且还大大影响到分类的精度。特征降维可以有效地解决这一难题,包括特征抽取和特征选择两种。相比较之下,特征选择算法因其过程比较简单,且可以取得比特征抽取算法更理想的降维效果,在文本分类系统中受到广泛应用。本文首先简要介绍了几种传统的特征选择算法,其中重点介绍被学者证明特征选择效果比较好的信息增益算法。分别从特征项频数在类内、类内位置和不同类间对算法的影响进行了分析,针对传统的信息增益算法对特征项频数考虑不足的弊端,提出一种改进信息增益特征选择算法IGimp。 由于每个特征项对文本类别的分类能力都不一样,特征项的权重恰能体现其对文档表示能力的大小,而不同的特征权重算法对文本空间向量的构造会产生很大影响。本文首先简单介绍几种传统的特征项权重算法和它们的优缺点,随后详细分析传统特征加权算法TD-IDF的不足,首先针对IDF的不足进行改进,之后根据熵的概念提出类内和类间信息分布熵参数因子进一步对算法进行改进。 为验证本文提出的改进信息增益特征选择算法和改进TF-IDF特征加权算法的有效性,文章在中文文本分类实验平台上进行两项对比实验。第一项实验是将改进的IGimp算法同另外四种常见的特征选择算法作比较,而第二项实验是将改进的TD-NIDFimp算法同传统的TD-IDF算法作比较。实验利用评价指标查准率、查全率和F1评估值对各算法进行分析比较,对比结果表明本文提出的IGimp和TD-NIDFimp改进算法都优于传统的算法,具有一定的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 唐亮;段建国;许洪波;梁玲;;基于信息论的文本分类模型[J];计算机工程与设计;2008年24期
2 施化吉;王贤川;李星毅;;基于规则重构的关联文本分类[J];计算机工程与设计;2009年03期
3 刘伍颖;王挺;;适于垃圾文本流过滤的条件概率集成方法[J];计算机科学与探索;2010年05期
4 张征杰;王自强;;文本分类及算法综述[J];电脑知识与技术;2012年04期
5 彭其华;;关联挖掘下的海量文本信息深入挖掘实现[J];微电子学与计算机;2013年10期
6 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期
7 王东兴,冷惠文;大量编程用文本数据的统一处理[J];鞍山钢铁学院学报;1997年06期
8 周鹏;数据库中不规范文本文件的数据转换[J];电脑编程技巧与维护;2005年05期
9 谷峰;吴扬扬;;文本分类关键技术[J];福建电脑;2006年09期
10 宋东风;张志浩;;短文本数据的自动分类[J];电脑与信息技术;2007年01期
11 宋东风;张志浩;;短文本数据的自动分类[J];微型电脑应用;2007年02期
12 杨金柱;刘金岭;;基于词语上下文的文本分类研究[J];计算机技术与发展;2011年08期
13 杨震;赖英旭;段立娟;李玉鑑;;基于上下文重构的短文本情感极性判别研究[J];自动化学报;2012年01期
14 吕曹芳;薛向锋;朱岳超;宗军君;;基于文本分类的网络知识发现[J];计算机与现代化;2013年02期
15 田扬;一个通用的窗口式文本显示程序[J];计算机应用;1992年03期
16 柴振荣;文本管理程序[J];管理科学文摘;1995年04期
17 杨斌,孟志青;一种文本分类数据挖掘的技术[J];湘潭大学自然科学学报;2001年04期
18 陈鑫;基于文本的分类方法研究[J];电脑开发与应用;2003年07期
19 张霞;尹怡欣;于海燕;赵海龙;;基于粒网络生成规则的文本分类研究[J];计算机科学;2008年12期
20 张冰;张曙晟;;电子政务中的文本控制技术研究与应用[J];办公自动化;2005年08期
中国重要会议论文全文数据库 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
2 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
3 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
4 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
5 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
6 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
7 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
8 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
9 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
10 赵玉茗;文本间语义相关性计算及其应用研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 姜英杰;基于本体的短文本分类研究[D];东北师范大学;2010年
2 杨硕;基于VSM文本分类系统的设计与实现[D];大连理工大学;2006年
3 马渊;短文本情感分析技术研究[D];重庆大学;2011年
4 张超;文本OLAP关键技术研究[D];山东大学;2012年
5 王宝龙;面向新闻领域的文本数据获取系统的设计与实现[D];北京邮电大学;2010年
6 曾洪波;基于类别裁剪和模糊理论的文本分类算法研究[D];暨南大学;2011年
7 徐立新;互联网文本视频过滤技术研究与应用[D];电子科技大学;2010年
8 梁鹏鹏;概率主题模型及其在关联文本分类中的应用研究[D];郑州大学;2011年
9 刘超;基于主题挖掘和覆盖的文本分类研究[D];安徽大学;2011年
10 蔡月红;基于类短语串和半监督学习的短文本分类研究[D];江苏大学;2010年
中国重要报纸全文数据库 前2条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
2 山东 黄家贞;网页保存工具——网页快拷[N];电脑报;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978