收藏本站
收藏 | 论文排版

基于改进的信息增益和LDA的文本分类研究

张方钊  
【摘要】:随着网络越来越普及,如何从海量信息中快速有效地获取目标信息成为人们关注的焦点。虽然网络信息的形式多种多样,比如有图像、音频、视频等类型,但是80%的信息依然是以文本形式呈现的,因此,是否能高效的管理文本信息就成为了能否顺利应对海量信息的关键,文本分类作为一种管理文本信息的高效方式,在数据挖掘领域一直都是研究热点。文本信息具有高维性、离散度高、稀疏性等特征,而中文博大精深,经常会出现一词多义、一义多词等情况,而且不像英文单词天然被分割开来,所以分词算法的好坏很大程度上能影响最终的分类效果,所以针对中文的文本分类具有更高的复杂性,这些因素在分类过程中带来不少的挑战,严重影响文本分类的精确度。所以,如何提高特征选择的效率成了提高文本分类效果的关键所在。传统的信息增益算法往往有以下缺点。第一,由于未考虑到特征词的词频信息与类别信息之间的相关性,会导致特征词的信息增益计算不准确;第二,由于传统算法是以统计学为基础的,会忽略特征词之间的相关性,从而导致未能考虑语义信息。本文提出了基于类信息的信息增益算法,并将之与LDA主题模型相结合,以此方法来解决以上问题。针对第一个缺点,本文将在类的概念基础上,从类间和类内两个角度来分析,将类间词频、类间分散度、类内词频、类内聚合度与信息增益的计算结合起来,通过加入这些值来修正信息增益计算公式。类间词频、类间分散度描述了特征词在各个类上的分布,反应了特征词在类之间离散度,主要表示了特征词对某些类别的代表程度;类内词频、类内聚合度描述了特征词在指定的类内之中各个文本上的分布,反应了特征词在该类别中各个文本上分布的离散度,主要表示了特征词对指定类别的代表程度。针对第二个缺点,本文将在采用LDA主题模型来解决,在对LDA模型进行建模时,LDA通过同过主题来表达特征词之间的相关性,这样一来,一些语义相近的特征词就会被联系在一起,而一些例如同义词等冗余信息就会被剔除。最后通过SVM分类算法来进行分类,通过采用不同的特征选择算法:传统的信息增益算法、基于类信息的信息增益算法、LDA主题模型、基于类信息的信息增益算法与LDA主题模型结合来进行对比实验,得出本文提出的基于类信息的信息增益算法与LDA主题模型相结合的方法可以提高分类效果。


知网文化
【相似文献】
中国期刊全文数据库 前17条
1 董立岩;李真;周灵艳;;特定信息增益决策森林分类器研究[J];计算机工程与应用;2010年26期
2 孟保成,苏莉华;应用综合信息增益法提取短期地震前兆[J];华南地震;1998年04期
3 沈萍,冯国政;信息增益在地震趋势估计中的应用[J];中国地震;1996年04期
4 李丹华;袁晔;王帅军;;基于数字几何信息增益的服装3D人体特征识别[J];北京服装学院学报(自然科学版);2016年02期
5 范艳峰;杨志晓;;可信网络中基于动态信息增益的多维属性决策[J];计算机应用研究;2012年01期
6 陈彤生;胡雪琴;李绍滋;周昌乐;;以信息增益模式探讨在高维数据上的多类别证型分类[J];心智与计算;2007年03期
7 张永兵;杨理伟;吴永丽;张永飞;;利用熵信息增益分析疾病诊断因子作用[J];中国卫生统计;2006年06期
8 白云晖;;基于信息增益特征选取和覆盖的中文文本分类[J];福建电脑;2008年07期
9 王亚东,郭茂祖,钱国良;一种基于信息增益与费用评价函数的特征选择准则[J];计算机研究与发展;1999年07期
10 刘亚琦;;基于属性相关分析中的信息增益计算——五年制高职与三年制高职教育的比较[J];科技创新导报;2008年27期
11 任永功;杨荣杰;尹明飞;马名威;;基于信息增益的文本特征选择方法[J];计算机科学;2012年11期
12 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
13 任永功;杨雪;杨荣杰;胡志冬;;基于信息增益特征关联树的文本特征选择算法[J];计算机科学;2013年10期
14 潘若愚,韩晓峰;一种基于信息增益的产品评价系统模型[J];合肥工业大学学报(自然科学版);2003年S1期
15 李虹利;蒙祖强;;运用信息增益和不一致度进行填补的属性约简算法[J];计算机科学;2018年10期
16 赵月;;基于信息增益比率分类的多Agent序贯拍卖模型[J];南阳理工学院学报;2011年06期
17 沈红斌;杨杰;刘小军;陈宁江;;基于模糊信息增益的图像相关性度量[J];上海交通大学学报;2006年03期
中国重要会议论文全文数据库 前10条
1 戚犇;王梦迪;;基于信息增益的贝叶斯态势要素提取[A];第32次全国计算机安全学术交流会论文集[C];2017年
2 王孟;白清源;谢丽聪;谢伙生;张莹;;基于信息增益规则排序的关联文本分类[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
3 陈晶晶;;C4.5经典分类算法的研究与改进[A];荆楚学术2016年第四期 (总第五期)[C];2016年
4 覃朗;朱建军;衣柏衡;周新民;;非均衡数据下基于信息增益的SMOTE改进SVM模型研究[A];第十八届中国管理科学学术年会论文集[C];2016年
5 邓宾;余正涛;韩露;车文刚;郭剑毅;;基于信息增益改进贝叶斯词义消歧模型[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 陆玉清;洪宇;陆军;姚建民;朱巧明;;基于上下文的真词错误检查及校对方法[A];第六届全国信息检索学术会议论文集[C];2010年
7 胡海斌;邱明;姜青山;胡海龙;赵新星;;一种基于数据继承关系的C4.5分类优化算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 田伟;丁妮;;基于决策树的入侵检测技术[A];普适计算及其软件新技术——第三届长三角计算机科技论坛文集[C];2006年
9 刘惠;邱天爽;;基于模糊集理论和信息增益分析技术的分类算法[A];第十一届全国信号处理学术年会(CCSP-2003)论文集[C];2003年
10 刘鹏;雷蕾;张雪凤;;缺失数据处理方法的比较研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国博士学位论文全文数据库 前1条
1 赵冲冲;基于支持向量机的旋转机械故障诊断[D];西北工业大学;2003年
中国硕士学位论文全文数据库 前10条
1 张方钊;基于改进的信息增益和LDA的文本分类研究[D];吉林大学;2018年
2 辛雅斐;蚁群算法中基于信息增益的信息素值的分析与改进[D];暨南大学;2008年
3 亓孟雅;基于信息增益的决策树算法的分析与改进[D];华中科技大学;2015年
4 施欢欢;面向招标项目名称的中文短文本分类技术研究[D];南京财经大学;2017年
5 邓蓓蓓;基于信息增益的量化算法及其在决策树中应用的研究[D];广东工业大学;2016年
6 陈小莉;基于信息增益的中文特征提取算法研究[D];重庆大学;2008年
7 王荣;分类技术及其在客户关系管理中的应用[D];浙江大学;2006年
8 朱琳;基于分类算法的用户推荐方法研究及应用[D];北京邮电大学;2017年
9 甄灵敏;基于属性权重和标记记录的实体解析技术[D];东北大学;2013年
10 谷耀军;基因表达数据挖掘方法研究[D];西北农林科技大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978