收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于KNN的文本分类特征选择与分类算法的研究与改进

黄娟娟  
【摘要】:随着信息技术的迅猛发展和日益普及,文本信息呈现指数级增长。文本分类作为管理大量信息的重要技术,能有效地解决信息混杂的难题,同时能够让用户更准确地检索信息,在信息过滤与检索、邮件分类和话题跟踪等方面有很高的应用价值,是数据挖掘领域的热点技术。 本文以提高KNN分类器性能为主要目标,简要阐述文本分类定义、文本预处理、特征选择、特征加权、分类方法和分类性能评估等,并且针对特征选择、特征加权、分类方法进行了深入研究并加以改进。 (1)提出了基于蚁群优化算法的特征选择。通过设计适应度函数、转移规则和信息素更新等,可以有效排除关联特征和冗余特征,降低计算的空间与时间,提高计算精度,从而提高分类性能。 (2)结合TF-RFIDF对有监督特征加权进行改进。在有监督特征加权方法TF-RF的基础上,将相关性频率(RF)和逆文档频率(IDF)结合,提出TF-RFIDF特征加权法,更好地利用了样本分布和类别先验信息,从而提高文本分类的性能。 (3)结合关联规则对KNN分类算法进行改进。该方法利用Apriori算法针对不同类别的训练样本提取每个类别的频繁特征集及其关联的文本,为未知类别的文本确定适当的近邻数k,根据近邻的类别确定未知文本的类别。改进后的方法能够较好地确定k值,并且能降低时间复杂度。 实验表明,三个针对文本分类的算法改进都能提高分类正确率,表明了算法的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
2 李永平,程莉,叶卫国;基于隐含语义的kNN文本分类研究[J];计算机工程与应用;2004年06期
3 李杨,曾海泉,刘庆华,胡运发;基于kNN的快速WEB文档分类[J];小型微型计算机系统;2004年04期
4 宋晓宇;孙业挺;孙焕良;;支持动态负载的移动对象最近邻查询算法[J];计算机工程与应用;2007年27期
5 杨丽华;戴齐;郭艳军;;KNN文本分类算法研究[J];微计算机信息;2006年21期
6 陈益军;;一种基于元数据方法的KNN网页分类器的设计与实现[J];福建电脑;2007年06期
7 刘慧;杨宏光;;应用于中文文本分类的改进KNN算法[J];今日科苑;2010年08期
8 孙丽华,张积东,李静梅;一种改进的kNN方法及其在文本分类中的应用[J];应用科技;2002年02期
9 来羽;;基于分类算法的可视化技术研究[J];煤炭技术;2010年10期
10 杜尔斌;李翔;林祥;;改进的KNN文本分类算法[J];信息安全与通信保密;2011年04期
11 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
12 刘海博;郗亚辉;王煜;;用于文本分类的快速KNN算法[J];河北大学学报(自然科学版);2008年03期
13 吕震宇;赵爽;林永民;;kNN在文本分类中的应用研究[J];计算机与现代化;2008年11期
14 闭小梅;闭瑞华;;KNN算法综述[J];科技创新导报;2009年14期
15 杨建良,王永成;基于KNN与自动检索的迭代近邻法在自动分类中的应用[J];情报学报;2004年02期
16 林琛;李弼程;;一种有效的垃圾邮件过滤新方法[J];计算机应用;2006年08期
17 崔彩霞;张朝霞;;文本分类方法对比研究[J];太原师范学院学报(自然科学版);2007年04期
18 王煜;白石;王正欧;;用于Web文本分类的快速KNN算法[J];情报学报;2007年01期
19 李鑫;张黎烁;;文本分类方法比较研究[J];光盘技术;2009年05期
20 郑刚;彭世揆;戎慧;李杨;王妮;;基于KNN方法的森林蓄积量遥感估计和反演概述[J];遥感技术与应用;2010年03期
中国重要会议论文全文数据库 前10条
1 魏萌芽;李翠平;陈红;;一种基于kNN的控制关系分析方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 宋晓宇;孙业挺;孙焕良;;基于双层网格索引的移动对象KNN查询算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 殷晓岚;丁治明;李京;;移动对象在空间网络数据库上的kNN查询[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 李斌阳;赵志滨;于戈;姚兰;杨晓春;刘阳;;一种基于过滤器的无线传感器网络近似kNN查询优化算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 刘玲;王冠;;可视化技术在分类算法中的应用研究[A];第四届中国智能计算大会论文集[C];2010年
6 郝继功;徐志军;初瑞清;;柠檬酸法制备(K_(1/2)Na_(1/2))NbO_3无铅压电陶瓷及其性能研究[A];第六届中国功能材料及其应用学术会议论文集(2)[C];2007年
7 丁琳琳;乔百友;王国仁;陈忱;;SMR:一种支持高维数据KNN查询的P2P语义覆盖网络[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 刘俊岭;孙焕良;;多维度量空间中发现相互kNN(英文)[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
9 张政;周水庚;周傲英;;一种新的基于kNN和Rocchio的文本分类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 沈志斌;白清源;;基于加权修正的KNN文本分类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
中国博士学位论文全文数据库 前6条
1 江民红;KNN基无铅压电陶瓷的改性与机理研究[D];中南大学;2010年
2 方建;KNN和BT高性能无铅压电陶瓷的制备技术及机理研究[D];清华大学;2012年
3 吕宁;PMN和KNN铁电材料的电子显微学及第一性原理研究[D];清华大学;2010年
4 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
5 郭颖;森林地上生物量的非参数化遥感估测方法优化[D];中国林业科学研究院;2011年
6 曹庆先;北部湾沿海红树林生物量和碳贮量的遥感估算[D];中国林业科学研究院;2010年
中国硕士学位论文全文数据库 前10条
1 黄娟娟;基于KNN的文本分类特征选择与分类算法的研究与改进[D];厦门大学;2014年
2 杜尔斌;基于改进KNN的文本分类算法的设计与实现[D];上海交通大学;2010年
3 林文香;改进的KNN算法在过滤垃圾邮件中的应用研究[D];湖南大学;2010年
4 郝继功;KNN基无铅压电陶瓷的制备及其性能研究[D];聊城大学;2010年
5 刘慧;基于KNN的中文文本分类算法研究[D];西南交通大学;2010年
6 张飞;基于KNN算法的文本分类系统的设计与实现[D];华中科技大学;2011年
7 苑迪文;基于KNN的专利文本分类算法研究[D];河南理工大学;2012年
8 黄樑昌;kNN填充算法的分析和改进研究[D];广西师范大学;2010年
9 杨营辉;基于密度的样本裁剪算法的改进及在kNN中的应用研究[D];重庆大学;2010年
10 童先群;基于属性值信息熵的KNN算法改进研究[D];漳州师范学院;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978