收藏本站
收藏 | 论文排版

加权贝叶斯增量学习中文文本分类研究

侯凯  
【摘要】:伴随着现代信息技术的高速发展,尤其是因特网的普及应用,网络上爆炸式增长的数据信息,该如何对这些信息进行合理自动的处理,保留住那些有效的大型文本数据集合就成为了当今一个非常重要的研究课题。 本文讨论了中文文本分类的文本预处理技术、向量空间模型、自动分词策略等,并且通过大量的实验研究了信息增益(IG)、互信息(MI)、交叉熵(CE)、X~2统计(CHI)以及文本证据权这5种不同的特征选择算法对分类算法性能表现的影响。 在诸多文本分类算法中朴素贝叶斯算法由于其健壮性和简单性一直都处于业界重点研究的行列。在条件独立性假设前提下传统的朴素贝叶斯分类器往往都默认数据集中所有特征权值都是相等的,可事实上并非如此,不同的特征属性对于不同类别的数据集所表现出来的影响力必然是不一样的,为此,本文便提出了一个权均值的概念,是指属于同一类别但非同一文本的同一特征项权值总和在该类别中的平均值,本文用此权均值来对朴素贝叶斯的性能加以提升;当面临有大量新增数据到来,传统的贝叶斯方法就需要重新把之前的所有样本数据都全部重新学习一次,这样不仅会耗费大量时间而且操作起来也相当麻烦,为此我们便引入了一种增量学习的方法,其学习的过程就是通过使每一次对测试集分类损失最小化的原则来选取每一次的新增样本直至新增样本集为空,由于这种增量学习的方法我们只需要少量的基础训练样本集就能实现对文本的分类。综合上述两种方案,本文提出了一种基于加权贝叶斯的增量学习方法并通过大量实验对这这种所提方法的分类性能进行验证。实验证明,该加权增量学习方法确能产生良好的分类效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陶品,张钹,叶榛;构造型神经网络双交叉覆盖增量学习算法[J];软件学报;2003年02期
2 彭彬彬,孙正兴,金翔宇;多值分类环境下基于SVM增量学习的用户适应性研究(英文)[J];南京大学学报(自然科学版);2004年02期
3 姜卯生,王浩,姚宏亮;朴素贝叶斯分类器增量学习序列算法研究[J];计算机工程与应用;2004年14期
4 景博,李剑,钱越英;一种协商在线增量学习算法及其在基于智能体的电子商务中的应用[J];计算机工程与应用;2005年02期
5 吴飞,庄越挺,潘云鹤;基于增量学习支持向量机的音频例子识别与检索[J];计算机研究与发展;2003年07期
6 杨森,徐海涛,柴乔林;应用支持向量机实现增量入侵检测[J];计算机工程与应用;2004年27期
7 余承依;;基于贝叶斯增量分类的邮件过滤研究[J];科学技术与工程;2009年09期
8 刘璨;粗集神经网络过程监控模型的增量学习法[J];机床与液压;2004年01期
9 滕月阳,唐焕文,张海霞;一种新的支持向量机增量学习算法[J];计算机工程与应用;2004年36期
10 张仕华;王学业;;增量回归支持向量机改进学习算法[J];计算机工程与应用;2006年03期
11 陶品,张钹,叶榛;可继续学习的构造型神经网络构造算法[J];计算机工程与应用;2002年08期
12 李凯,黄厚宽;支持向量机增量学习算法研究[J];北方交通大学学报;2003年05期
13 曾嵘,刘建成,蒋新华;一种基于支持向量机的增量学习算法[J];铁道科学与工程学报;2005年01期
14 李祥纳;艾青;秦玉平;刘卫江;;支持向量机增量学习算法综述[J];渤海大学学报(自然科学版);2007年02期
15 欧阳星明;刘云胜;;一种新的增量决策树算法[J];微处理机;2008年05期
16 萧嵘 ,王继成 ,孙正兴 ,张福炎;一种SVM增量学习算法α-ISVM[J];软件学报;2001年12期
17 李忠伟,张健沛,杨静;基于支持向量机的增量学习算法研究[J];哈尔滨工程大学学报;2005年05期
18 刘风;王正群;陈广花;;基于类别信息的分类器集成方法Cagging[J];计算机应用;2008年S2期
19 万辉;魏延;;一种改进的最小二乘支持向量机算法[J];重庆师范大学学报(自然科学版);2010年04期
20 高洁,吉根林;一种增量式Bayes文本分类算法[J];南京师范大学学报(工程技术版);2004年03期
中国重要会议论文全文数据库 前10条
1 张健沛;李忠伟;杨静;;一种基于多支持向量机的并行增量学习方法(英文)[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 王玲;穆志纯;郭辉;;基于支持向量回归的增量建模方法[A];第25届中国控制会议论文集(上册)[C];2006年
3 赵莹;万福永;;支持向量机的增量学习算法及其在多类分类问题中的应用[A];第25届中国控制会议论文集(下册)[C];2006年
4 郝增荣;刘海军;柳征;姜文利;;一种基于神经网络增量学习的辐射源识别算法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
5 罗长升;段建国;许洪波;郭莉;;基于拉推策略的文本分类增量学习研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 马亮;陈群秀;谭伟;;智能Web信息检索相关研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 王会珍;朱靖波;季铎;叶娜;张斌;;基于反馈学习自适应的中文话题追踪[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 刘欣;章勇;王娟;;增量学习的TFIDF_NB协同训练分类算法[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
9 马后锋;樊兴华;;一种改进的增量贝叶斯分类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
10 何琳;章林柯;;基于组合变结构Fuzzy-RBF网络的潜艇异类噪声源检测[A];湖北省声学学会成立二十周年纪念文集[C];2006年
中国博士学位论文全文数据库 前10条
1 丁凯;基于增量学习的中文手写书写者自适应技术研究[D];华南理工大学;2011年
2 赵强利;基于选择性集成的在线机器学习关键技术研究[D];国防科学技术大学;2010年
3 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
4 何学文;基于支持向量机的故障智能诊断理论与方法研究[D];中南大学;2004年
5 王昱;考虑特征变量异质性的分类方法及其在风险决策中的应用研究[D];中国科学技术大学;2009年
6 李斌;概率混合模型的研究及其应用[D];复旦大学;2009年
7 王利民;贝叶斯学习理论中若干问题的研究[D];吉林大学;2005年
8 孙彩堂;彩色虹膜图像识别算法的研究[D];吉林大学;2009年
9 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
10 吴冰;相关向量回归元建模关键技术及其应用研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 侯凯;加权贝叶斯增量学习中文文本分类研究[D];长沙理工大学;2013年
2 鲁婷;K-近邻中文文本分类方法的研究[D];合肥工业大学;2010年
3 赵德圣;基于关联技术的中文文本分类研究[D];南京理工大学;2011年
4 何钟莉;中文文本分类关键技术研究与实现[D];西安电子科技大学;2009年
5 徐晓艳;基于K近邻算法的中文文本分类研究[D];安徽大学;2012年
6 杜玲;覆盖算法的增量学习研究[D];安徽大学;2010年
7 陈冲;互联网中文文本分类的研究与应用[D];北京邮电大学;2011年
8 陈雅芳;中文文本分类方法研究[D];浙江大学;2010年
9 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
10 李保秀;中文文本分类技术研究[D];南昌大学;2010年
中国重要报纸全文数据库 前5条
1 本版编辑紫箕 王海峰 一二;药物试验“偏心”要不得[N];医药经济报;2007年
2 张晓兵;四阶段演绎反垃圾邮件进程[N];中国计算机报;2007年
3 广发期货发展研究中心 许江山 编译;投资冲击与经济周期[N];期货日报;2010年
4 郭之虞 马宏骥;如何看待与使用系列样品■年代校正方法[N];中国文物报;2002年
5 武汉大学 孟勇;基于主观观念的资产组合模型研究[N];光明日报;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978