收藏本站
《西安电子科技大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

文本分类算法的研究与改进

巩军全  
【摘要】:文本分类可以为文本提供有序的组织,网络信息的增长使文本分类对信息处理的意义变得更加重要。 二十世纪八十年代以后,基于机器学习的文本自动分类方法越来越成为主流,它具有周期短,效率高,节省人力资源等优点。但文本自动分类研究自开展以来,准确率一直不能达到令人满意的效果,如何提高分类准确率成为研究热点。 本文较详细的介绍了文本自动分类的多种关键技术,分析了文本的向量空间模型的表示效力以及它对于分类效果的影响因素;然后针对朴素贝叶斯文本分类方法中“属性独立性假设”的不足,运用局部降维的思想提出了一种用互信息差值来表达特征项之间的相关性,对相关性高的特征采取适当融合来达到向量空间降维的方法。 此方法首先对训练文本集中的每篇文本提取出原始的特征词,经过去除停用词、词义消歧的处理后,在类的内部利用信息差值来表达特征项之间的相关性,对相关性高的特征采取适当融合的方法来对特征向量进行局部降维。得出的向量与降维前相比,低频特征词的数目大为减少,高频特征词数目增多,且高频特征词的频度得到加强,特征词总的数目减少,向量的维数降低,对于所属类别具有更强的关联性和较好的表示效力,很好地达到了降维的目的。 最后,运用此方法对朴素贝叶斯分类方法进行改进,还对具体操作时阈值的选取做了一些研究。实验结果表明,改进后的文本分类模型适合于文本分类的需要,提高了原有分类器的性能。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 王大玲,于戈,鲍玉斌,王国仁;一种基于关联性度量的决策树分类方法[J];东北大学学报;2001年05期
2 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
3 卢新国,林亚平,陈治平;一种改进的互信息特征选取预处理算法[J];湖南大学学报(自然科学版);2005年01期
4 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
5 邢永康;马少平;;统计语言模型综述[J];计算机科学;2003年09期
6 王秀娟,郭军,郑康锋;文本分类中一种新的特征选择方法[J];计算机应用;2005年03期
7 李仁璞,王正欧;基于粗集理论和神经网络结合的数据挖掘新方法[J];情报学报;2002年06期
8 李凡,鲁明羽,陆玉昌;关于文本特征抽取新方法的研究[J];清华大学学报(自然科学版);2001年07期
9 韩家新,王家华;一种以相关性确定条件属性的决策树[J];微机发展;2003年05期
10 侯汉清,黄刚;电子计算机与文献分类[J];计算机与图书馆;1982年01期
中国硕士学位论文全文数据库 前6条
1 王潇;基于向量空间模型的文本自动分类算法的研究与改进[D];西北师范大学;2006年
2 周龙;基于朴素贝叶斯的分类方法研究[D];安徽大学;2006年
3 庞剑锋;基于向量空间模型的自反馈的文本分类系统的研究与实现[D];中国科学院研究生院(计算技术研究所);2001年
4 付裕;文本分类方案选择方法及原型系统开发[D];大连理工大学;2006年
5 陈剑敏;基于Bayes方法的文本分类器的研究与实现[D];重庆大学;2007年
6 罗福星;增量学习朴素贝叶斯中文分类系统的研究[D];中南大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 王全凤;郑浩;;基于径向基函数神经网络的高层建筑结构选型[J];四川建筑科学研究;2010年05期
2 张根耀,李竹林,赵宗涛;遮挡情况下运动目标的跟踪[J];安徽大学学报(自然科学版);2003年03期
3 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
4 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
5 陈弋兰;王鸣;孙书诚;;朴素贝叶斯分类器的误差估计[J];安徽工程科技学院学报(自然科学版);2008年04期
6 李芳芳;;数据仓库技术在远程教育中的应用[J];安徽科技;2007年01期
7 唐超礼;魏圆圆;;基于数据挖掘的植保预测系统[J];安徽农业科学;2008年12期
8 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
9 张红涛;胡玉霞;张恒源;顾波;;储粮害虫图像识别中的特征压缩研究[J];安徽农业科学;2008年27期
10 张昭;何东健;;基于计算机视觉的竹块颜色分类方法研究[J];安徽农业科学;2010年26期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
3 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
4 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
5 梁禹;王义刚;王娜;;基于支持向量机的电力电子电路故障诊断[A];第二十六届中国控制会议论文集[C];2007年
6 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
7 刘华;张建华;王娆芬;王行愚;;人机系统操作员功能状态的模糊聚类方法[A];第二十九届中国控制会议论文集[C];2010年
8 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
9 尹雪娇;;基于蚁群算法的故障诊断[A];创新沈阳文集(A)[C];2009年
10 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
2 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
3 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
4 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
5 乔小燕;基于生物形态学的赤潮藻显微图像分割与特征提取研究[D];中国海洋大学;2010年
6 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
7 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
8 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
9 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
10 徐红林;基因调控网络的建模及其结构分解方法研究[D];江南大学;2010年
中国硕士学位论文全文数据库 前10条
1 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
2 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
3 廖甜甜;白细胞图像语义识别分类的研究[D];南昌航空大学;2010年
4 黄正荣;基于振动波的高速公路车辆行驶状态辨识理论研究[D];南昌航空大学;2010年
5 刘棉;人机划拳系统的实现[D];山东科技大学;2010年
6 刘桂珍;颅骨三维重建与信息提取[D];山东科技大学;2010年
7 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
8 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
9 张海峰;空间三维信息重构与飞行器路径规划[D];山东科技大学;2010年
10 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 李良俊;张斌;杨明;;基于LSA降维的KNN文本分类算法[J];东北师大学报(自然科学版);2007年02期
2 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
3 叶东毅,陈昭炯;一个改进的粗糙集属性约简算法[J];福州大学学报(自然科学版);2000年05期
4 卢新国,林亚平,陈治平;一种改进的互信息特征选取预处理算法[J];湖南大学学报(自然科学版);2005年01期
5 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
6 石洪波,黄厚宽,王志海;基于Boosting的TAN组合分类器[J];计算机研究与发展;2004年02期
7 朱寰,阮彤,于庆喜;文本分割算法对中文信息过滤影响研究[J];计算机工程与应用;2002年13期
8 余芳;一个基于朴素贝叶斯方法的web文本分类系统:WebCAT[J];计算机工程与应用;2004年13期
9 姜卯生,王浩,姚宏亮;朴素贝叶斯分类器增量学习序列算法研究[J];计算机工程与应用;2004年14期
10 王映,常毅,谭建龙,白硕;基于N元汉字串模型的文本表示和实时分类的研究与实现[J];计算机工程与应用;2005年05期
中国博士学位论文全文数据库 前2条
1 苏健;基于粗糙集的数据挖掘与决策支持方法研究[D];浙江大学;2002年
2 乔斌;粗糙集理论分层递阶约简算法的研究[D];浙江大学;2003年
中国硕士学位论文全文数据库 前2条
1 费爱蓉;基于贝叶斯方法的Web服务分类的研究[D];合肥工业大学;2004年
2 陈治纲;基于向量空间模型的文本分类系统研究与实现[D];天津大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 张婧;李珏峰;;数据挖掘技术在BBS管理中的应用[J];福建电脑;2008年04期
2 大鱼儿;;自动扩展大小的TEdit[J];软件;2001年07期
3 赵春红;刘国华;王柠;何玲玲;;外包数据库模型中文本数据的完整性检测方案[J];小型微型计算机系统;2010年09期
4 仲志平;刘渝妍;翟从鸿;;基于BWC的XML文本数据索引技术[J];安徽师范大学学报(自然科学版);2011年03期
5 仲志平;刘渝妍;孙建洪;;基于BWC的XML文本数据索引技术研究[J];昆明学院学报;2011年03期
6 杜德生;田小军;;Lucene应用中Pdf文档文本数据提取方法研究[J];自动化技术与应用;2009年03期
7 王成强;;基于不平衡数据集的文本分类技术[J];电脑知识与技术;2009年36期
8 孙开放;使用通信控件实现字节通信方式[J];微计算机信息;2002年03期
9 薛冰冰,普杰信;数据挖掘技术及其在电子邮件中的应用[J];信息技术;2003年07期
10 崔时珍;;纯文本数据在VFP中导入导出[J];电脑学习;2009年01期
中国重要会议论文全文数据库 前10条
1 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
2 丁兆云;贾焰;周斌;;基于文本数据的多维层次式舆情计算模型的研究与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
4 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 杨艳;李巍;玄萍;;数字图书馆中基于Ontology的文本模型[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
6 彭泽映;俞晓明;许洪波;;大规模短文本的不完全聚类[A];第六届全国信息检索学术会议论文集[C];2010年
7 李虎;邹鹏;贾焰;周斌;;一种基于Map Reduce的分布式文本数据过滤模型研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
8 苏变萍;侯筱婷;;文本数据的非线性降维方法研究[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
9 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 张小琴;蒋秀凤;;基于句子级的领域倾向词表构建[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 曾华燊;化繁为简: 提升NGI服务质量[N];计算机世界;2006年
2 实习生 赵静记者 黄雪英;自贡馆藏文物数据库系统建立[N];自贡日报;2008年
3 Jim Goodnight;BI:演进中勾勒未来[N];网络世界;2007年
4 张耀南 杨海 韦五周 景通桥 张军强;寒区旱区数据管理平台[N];计算机世界;2006年
5 王;汇总通话、加速Web显示[N];中国计算机报;2001年
6 本报记者 谢斌鑫;视频的短板[N];中国计算机报;2004年
7 苏和;电子检务该如何推行[N];检察日报;2007年
8 ;BI的新方向[N];网络世界;2007年
9 金翔 王钰;全国文物普查通过验收[N];广元日报;2010年
10 杨前有;柞水建成土地利用现状数据库[N];商洛日报;2007年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
3 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
4 朱岩;面向文本数据的半监督学习研究[D];北京交通大学;2012年
5 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
6 王鉴全;基于概念图挖掘的中文文本倾向性研究[D];大连理工大学;2012年
7 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
8 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
9 周亦鹏;基于软件人的情境主题分析及应用研究[D];北京科技大学;2012年
10 郝立柱;汉语文本自动分类[D];吉林大学;2008年
中国硕士学位论文全文数据库 前10条
1 朱敏;基于丰心工学的情感信息可视化与充实度分析[D];北京邮电大学;2011年
2 徐淑坦;基于改进RBF神经网络的文本情感分类研究[D];吉林大学;2011年
3 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
4 巩军全;文本分类算法的研究与改进[D];西安电子科技大学;2010年
5 李正林;中文文本数据分类研究[D];上海师范大学;2004年
6 罗晖霞;网络舆情监测系统研究与开发[D];中北大学;2010年
7 陈鸿;Web网页的时态文本索引研究[D];中国科学技术大学;2011年
8 张彬;文本情感倾向性分析与研究[D];河南工业大学;2011年
9 暴自强;结合LSA的文本谱聚类算法研究[D];重庆大学;2010年
10 王雷;基于支持向量机的文本分类器设计与实现[D];东北财经大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026