收藏本站
收藏 | 论文排版

文本分类系统的设计与实现

高亚波  
【摘要】: 随着计算机的普及以及互联网的不断发展,越来越多的电子文档堆积成了海量的数据,如何对这些海量数据进行管理以为用户快速的检索信息提供方便成为数据挖掘研究的一个核心。文本分类技术针对这个问题,提出了一系列解决方案。文本分类是一项重要的智能信息处理技术,在信息过滤、信息检索、文本数据库和数字图书馆等方面极具应用价值。本文介绍了文本分类技术及其相关算法,利用软件工程的思想设计并实现了一个文本分类系统。系统分为六个模块:(1)文本预处理模块,针对文档进行分词,停用词过滤;(2)词频统计模块,按照各种分类算法以及特征选择算法的特点统计文档中特征词的出现频率;(3)特征选择模块,实现了信息增益(IG)、互信息(Ml)、交叉熵(CE)、X-2统计四种特征选择算法;(4)权重计算模块,实现TF、TF-IDF算法;(5)分类器算法模块,实现了朴素贝叶斯(NB)和K近邻文本分类(KNN)算法;(6)分类器评价模块,实现了对分类器从查全率、查准率和F1值三个方面进行评价的机制。结合软件测试理论利用该系统进行了:KNN算法中k值对分类效果的影响,KNN算法下不同特征选择算法对分类效果的影响,NB算法与KNN算法分类效果比较这三个实验;通过这些实验对系统进行了测试,并从测试结果中得到了一些结论。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 袁剑锋;张启蕊;;医药信息文本分类系统中特征选择模块的研究[J];电脑知识与技术;2008年30期
2 王卫玲;孔波;初建崇;杨玫;;一种新的用于文本分类的特征选择算法[J];信息技术与信息化;2009年06期
3 寇苏玲;蔡庆生;;中文文本分类中的特征选择研究[J];计算机仿真;2007年03期
4 林森;唐发根;;基于Log似然比的特征选择算法[J];计算机工程;2009年19期
5 袁文生;王晓峰;;基于朴素贝叶斯的中文海事文本多分类器研究[J];计算机与现代化;2011年05期
6 徐治国;;基于朴素贝叶斯的垃圾邮件分类系统的设计[J];盐城工学院学报(自然科学版);2008年02期
7 周晗;赵卫东;季军;;一种用于文本分类的特征选择方法[J];电脑知识与技术;2008年34期
8 郑伟;吕建新;马艳丽;;一种基于扩展互信息算法的特征选择方法[J];微计算机信息;2010年24期
9 梁宏胜;徐建民;成岳鹏;;一种改进的朴素贝叶斯文本分类方法[J];河北大学学报(自然科学版);2007年03期
10 刘健;钱猛;张维明;;基于Fisher线性判别模型的文本特征选择算法[J];国防科技大学学报;2008年05期
11 王博;贾焰;杨树强;周斌;;适用于不确定文本分类的特征选择算法[J];通信学报;2009年08期
12 夏克俭;张涛;;基于贝叶斯算法的垃圾邮件过滤的研究[J];微计算机信息;2008年09期
13 王美方;刘培玉;朱振方;;基于TFIDF的特征选择方法[J];计算机工程与设计;2007年23期
14 王卫玲;初建崇;许立科;;一种基于关联性的特征选择算法[J];计算机应用与软件;2009年08期
15 黄迎春;李晓晔;邓文新;;文本挖掘技术的研究[J];齐齐哈尔大学学报;2006年03期
16 郭飞;张先君;叶俊;;基于改进互信息的特征提取的文本分类系统[J];四川理工学院学报(自然科学版);2008年03期
17 王园;龚尚福;;基于二次TF* IDF的互信息文本特征选择算法研究[J];计算机应用与软件;2011年04期
18 谢科;张辉;陈鹏;庞斌;;文本分类系统关键技术[J];广西师范大学学报(自然科学版);2007年02期
19 朱颢东;周姝;钟勇;;基于特征辨别能力和二进制可辨矩阵的特征选择[J];计算机应用与软件;2010年10期
20 周国强;崔荣一;;基于朴素贝叶斯分类器的朝鲜语文本分类的研究[J];中文信息学报;2011年04期
中国重要会议论文全文数据库 前10条
1 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
5 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 伍建军;康耀红;;关于文本分类中特征降维方式的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
8 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
9 王秀娟;郑康锋;杨星海;;线性鉴别分析在中文文本分类中的应用[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年
10 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
2 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
3 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
4 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
5 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
6 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
7 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
8 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年
9 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
10 郝立柱;汉语文本自动分类[D];吉林大学;2008年
中国硕士学位论文全文数据库 前10条
1 高亚波;文本分类系统的设计与实现[D];北京交通大学;2008年
2 罗福星;增量学习朴素贝叶斯中文分类系统的研究[D];中南大学;2008年
3 王新丽;中文文本分类系统的研究与实现[D];天津大学;2007年
4 孟杰;基于构造性覆盖算法的中文文本分类[D];安徽大学;2007年
5 蒋伟贞;基于类别的特征选择算法的文本分类系统[D];西南交通大学;2004年
6 马宏伟;基于SVM的中文文本分类系统的建模与实现[D];大连理工大学;2006年
7 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
8 张俊丽;文本分类中的关键技术研究[D];华中师范大学;2008年
9 李笛;基于内容的垃圾邮件过滤方法研究[D];合肥工业大学;2008年
10 陈超;基于支持向量机的中文文本分类的系统研究[D];武汉理工大学;2007年
中国重要报纸全文数据库 前10条
1 本报记者   王军;新华富时指数 引入创新行业分类系统[N];中国证券报;2006年
2 李宇;恒指服务有限公司更名[N];中国证券报;2007年
3 记者 熊燕;杂交玉米选育在滇实现突破[N];云南日报;2006年
4 周晓娟;TD已过分水岭[N];通信产业报;2008年
5 周东;数威:创业之路有点难[N];中国高新技术产业导报;2005年
6 本报记者 白毅;生物药剂学分类系统促进新药研发[N];中国医药报;2002年
7 本报记者 李凯 蔡毓生;永远与时间赛跑的科研女杰[N];汕头日报;2005年
8 武广华;疾病诊断相关分类系统(DRGs)的发展及我国的相关研究[N];健康报;2006年
9 徐风;ecl@ss电子商务分类解决方案在中国推进[N];中国质量报;2006年
10 本报记者 胡轶坤;能否出现物料代码“世界语”[N];中国汽车报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978