收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于KNN的中文文本分类算法研究

刘慧  
【摘要】: 随着因特网的快速发展,人们可以从网络上获取越来越多诸如文本、图片、声音等形式的信息,而半结构化或无结构化的文本信息则是占据了大多数,如何利用文本分类技术对这些信息进行分门别类的管理是非常重要的。文本分类技术在较大程度上解决了信息杂乱的问题,而且它已成为信息过滤、搜索引擎等领域的基础,所以,对文本分类的研究有着重要的意义。 本文介绍了中文文本分类所涉及到的相关理论,如:向量空间模型、中文分词、特征选择、分类方法、评价指标、权重计算方法以及相似度计算方法。 通过对TFIDF详细的分析研究,针对它只考虑特征项的词频以及在整个训练文本集上的分布这一不足,提出了在原公式中增加表示特征项在各个类的分布情况,以及在类内各个文本间分布情况的改进方案。 在对K近邻分类方法深入分析的基础上,针对该方法在计算文本相似度时存在的不足,提出了改进方案。新的方案引入了中心向量分类法的思想,同时还考虑了待分类文本与训练文本间共同出现的特征项个数对分类的重要性。 在理论研究的基础上,构建了一个包括预处理模块、特征选择模块、分类模块以及评价模块四个功能模块的中文文本分类系统,该系统采用SQL Server 2000作为后台数据库,用c#语言实现。 最后利用实现的中文文本分类系统作为测试平台,通过实验验证了对TFIDF权重计算方法以及KNN分类方法改进的有效性和可行性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 袁方,杨柳,张红霞;基于k-近邻方法的渐进式中文文本分类技术[J];华南理工大学学报(自然科学版);2004年S1期
2 马建斌;李滢;滕桂法;王芳;赵洋;;KNN和SVM算法在中文文本自动分类技术上的比较研究[J];河北农业大学学报;2008年03期
3 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
4 张野;杨建林;;基于KNN和SVM的中文文本自动分类研究[J];情报科学;2011年09期
5 钱铁云,王元珍,冯小年;结合类频率的关联中文文本分类[J];中文信息学报;2004年06期
6 靳小波;;文本分类综述[J];自动化博览;2006年S1期
7 罗永莲,张永奎;基于混合特征的中文文本分类[J];电脑开发与应用;2005年04期
8 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期
9 张海燕,陈治平,童调生;基于2-grams短语标引的关键词自动抽取[J];绍兴文理学院学报;2002年09期
10 张欣欣,薛冰冰;基于数据挖掘技术的BBS的安全管理[J];洛阳工业高等专科学校学报;2003年04期
11 刘辉;应培培;;一种改进的KNN文本分类算法[J];信息安全与技术;2011年07期
12 张婧;李珏峰;;数据挖掘技术在BBS管理中的应用[J];福建电脑;2008年04期
13 大鱼儿;;自动扩展大小的TEdit[J];软件;2001年07期
14 唐常杰,张天庆,胡蓉,元昌安,陈安龙;文本分类的关联规则辅助遗传算法(英文)[J];四川大学学报(工程科学版);2004年03期
15 姚兴山;;基于词频的中文文本分类研究[J];现代情报;2009年02期
16 张爱华;荆继武;向继;;中文文本分类中的文本表示因素比较[J];中国科学院研究生院学报;2009年03期
17 赵春红;刘国华;王柠;何玲玲;;外包数据库模型中文本数据的完整性检测方案[J];小型微型计算机系统;2010年09期
18 仲志平;刘渝妍;翟从鸿;;基于BWC的XML文本数据索引技术[J];安徽师范大学学报(自然科学版);2011年03期
19 王奕;;基于概率潜在语义分析的中文文本分类研究[J];甘肃联合大学学报(自然科学版);2011年04期
20 仲志平;刘渝妍;孙建洪;;基于BWC的XML文本数据索引技术研究[J];昆明学院学报;2011年03期
中国重要会议论文全文数据库 前10条
1 魏萌芽;李翠平;陈红;;一种基于kNN的控制关系分析方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 宋晓宇;孙业挺;孙焕良;;基于双层网格索引的移动对象KNN查询算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 殷晓岚;丁治明;李京;;移动对象在空间网络数据库上的kNN查询[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 李斌阳;赵志滨;于戈;姚兰;杨晓春;刘阳;;一种基于过滤器的无线传感器网络近似kNN查询优化算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 刘玲;王冠;;可视化技术在分类算法中的应用研究[A];第四届中国智能计算大会论文集[C];2010年
6 郝继功;徐志军;初瑞清;;柠檬酸法制备(K_(1/2)Na_(1/2))NbO_3无铅压电陶瓷及其性能研究[A];第六届中国功能材料及其应用学术会议论文集(2)[C];2007年
7 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
8 丁琳琳;乔百友;王国仁;陈忱;;SMR:一种支持高维数据KNN查询的P2P语义覆盖网络[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
9 张政;周水庚;周傲英;;一种新的基于kNN和Rocchio的文本分类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 刘俊岭;孙焕良;;多维度量空间中发现相互kNN(英文)[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
中国博士学位论文全文数据库 前10条
1 江民红;KNN基无铅压电陶瓷的改性与机理研究[D];中南大学;2010年
2 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
3 吕宁;PMN和KNN铁电材料的电子显微学及第一性原理研究[D];清华大学;2010年
4 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
5 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
6 郭颖;森林地上生物量的非参数化遥感估测方法优化[D];中国林业科学研究院;2011年
7 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
8 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
9 朱岩;面向文本数据的半监督学习研究[D];北京交通大学;2012年
10 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
中国硕士学位论文全文数据库 前10条
1 刘慧;基于KNN的中文文本分类算法研究[D];西南交通大学;2010年
2 李丹;基于朴素贝叶斯方法的中文文本分类研究[D];河北大学;2011年
3 鲁婷;K-近邻中文文本分类方法的研究[D];合肥工业大学;2010年
4 赵德圣;基于关联技术的中文文本分类研究[D];南京理工大学;2011年
5 何钟莉;中文文本分类关键技术研究与实现[D];西安电子科技大学;2009年
6 徐晓艳;基于K近邻算法的中文文本分类研究[D];安徽大学;2012年
7 陈冲;互联网中文文本分类的研究与应用[D];北京邮电大学;2011年
8 陈雅芳;中文文本分类方法研究[D];浙江大学;2010年
9 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
10 李保秀;中文文本分类技术研究[D];南昌大学;2010年
中国重要报纸全文数据库 前10条
1 曾华燊;化繁为简: 提升NGI服务质量[N];计算机世界;2006年
2 实习生 赵静记者 黄雪英;自贡馆藏文物数据库系统建立[N];自贡日报;2008年
3 Jim Goodnight;BI:演进中勾勒未来[N];网络世界;2007年
4 苏和;电子检务该如何推行[N];检察日报;2007年
5 张耀南 杨海 韦五周 景通桥 张军强;寒区旱区数据管理平台[N];计算机世界;2006年
6 ;BI的新方向[N];网络世界;2007年
7 金翔 王钰;全国文物普查通过验收[N];广元日报;2010年
8 王;汇总通话、加速Web显示[N];中国计算机报;2001年
9 本报记者 谢斌鑫;视频的短板[N];中国计算机报;2004年
10 杨前有;柞水建成土地利用现状数据库[N];商洛日报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978