收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

增量学习朴素贝叶斯中文分类系统的研究

罗福星  
【摘要】: 随着Internet的飞速发展,文本信息成几何级增长。为了能在海量的文本中及时准确地获得有效的知识和信息,文本分类技术受到了广泛的关注。朴素贝叶斯分类是目前公认的一种简单有效的概率分类方法,但是它不具备增量学习的功能。针对这种情况,本文提出改进的增量学习朴素贝叶斯算法。本文详细介绍了增量学习思路与增量学习朴素贝叶斯算法,并设计了一个增量朴素贝叶斯中文分类实验系统。 论文的主要内容包括如下几个方面: 1.描述了文本分类的一般过程,介绍了多种贝叶斯分类方法,对比研究分析其联系与差别。 2.对特征选择算法进行深入分析,提出一种结合特征项在各类别中的分布信息的改进的TFIDF特征选择方法。实验证明改进的方法选择出的特征有更强的类别表达能力。 3.针对朴素贝叶斯分类不具备增量学习的缺陷,提出增量学习朴素贝叶斯算法。详细介绍了增量学习思路,提出带选择性对文本进行增量学习的思想。在此基础上提出加权朴素贝叶斯方法增量学习算法,并对算法给出了详细证明与分析。 4.设计了一个增量朴素贝叶斯中文分类实验系统,使用两个中文数据集进行实验。实验结果表面,带增量学习的朴素贝叶斯分类方法在两个数据集上都比单纯的朴素贝叶斯分类效果要好。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 夏克俭;张涛;;基于贝叶斯算法的垃圾邮件过滤的研究[J];微计算机信息;2008年09期
2 蒋望东;陆小艺;林士敏;;处理缺失数据的朴素贝叶斯分类增量算法[J];科学技术与工程;2008年14期
3 崔彩霞;张朝霞;;文本分类方法对比研究[J];太原师范学院学报(自然科学版);2007年04期
4 李丹;张兆信;宗占国;;利用开源的数据挖掘平台WEKA进行文本分类仿真实验[J];煤炭技术;2011年05期
5 杨延娇;王治和;;基于树桩网络的贝叶斯文本分类算法[J];计算机工程;2009年16期
6 袁文生;王晓峰;;基于朴素贝叶斯的中文海事文本多分类器研究[J];计算机与现代化;2011年05期
7 靳小波;夏清国;;基于Lee模型的文本分类[J];计算机工程;2006年02期
8 郭飞;张先君;叶俊;;基于改进互信息的特征提取的文本分类系统[J];四川理工学院学报(自然科学版);2008年03期
9 赵培;牛纪桢;史金艳;;改进的SVM在语音识别文本分类中的应用[J];广西师范大学学报(自然科学版);2009年01期
10 冯佳;宋胜利;王荔;陈平;;一种新的SVM多层增量学习方法HISVML[J];微电子学与计算机;2009年05期
11 孙铁利;赵隽;杨凤芹;吴迪;;一种基于相对特征的文本分类算法[J];东北师大学报(自然科学版);2010年01期
12 牛罡;罗爱宝;商琳;;半监督文本分类综述[J];计算机科学与探索;2011年04期
13 周国强;崔荣一;;基于朴素贝叶斯分类器的朝鲜语文本分类的研究[J];中文信息学报;2011年04期
14 王潇;胡鑫;;一种改进的贝叶斯文本分类模型[J];邢台职业技术学院学报;2006年01期
15 谢伟全;叶强;李一军;;基于用户知识的中文电子邮件分类[J];计算机应用研究;2007年03期
16 梁宏胜;徐建民;成岳鹏;;一种改进的朴素贝叶斯文本分类方法[J];河北大学学报(自然科学版);2007年03期
17 安艳辉;董五洲;游自英;;基于改进的朴素贝叶斯文本分类研究[J];河北省科学院学报;2007年01期
18 陈世立;高野军;;基于神经网络与贝叶斯的混合文本分类研究[J];情报杂志;2007年05期
19 李辉;张琦;卢湖川;;基于内容的垃圾短信过滤[J];计算机工程;2008年12期
20 苑俊英;陈海山;;一种改进的特征选取方法[J];科技信息;2009年04期
中国重要会议论文全文数据库 前10条
1 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
4 罗长升;段建国;许洪波;郭莉;;基于拉推策略的文本分类增量学习研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
6 王占一;徐蔚然;刘东鑫;郭军;;一种基于两级分类器的垃圾短信过滤方法[A];第五届全国信息检索学术会议论文集[C];2009年
7 刘欣;章勇;王娟;;增量学习的TFIDF_NB协同训练分类算法[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
8 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
9 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
10 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
2 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
3 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
4 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
5 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
6 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
7 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
8 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
9 郝立柱;汉语文本自动分类[D];吉林大学;2008年
10 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 罗福星;增量学习朴素贝叶斯中文分类系统的研究[D];中南大学;2008年
2 周钦强;基于人工智能技术Naive Bayes文本自动分类系统研究[D];广东工业大学;2005年
3 汪传建;基于混合模型的文本分类的研究[D];东北大学;2005年
4 王雪飞;词间相关性对文本分类的影响[D];南京理工大学;2007年
5 李笛;基于内容的垃圾邮件过滤方法研究[D];合肥工业大学;2008年
6 赵隽;基于相对特征的文本分类算法研究[D];东北师范大学;2008年
7 王雷;基于改进贝叶斯算法的文本分类器的研究及其在NERMS中的应用[D];吉林大学;2006年
8 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
9 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
10 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
中国重要报纸全文数据库 前6条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
3 希安;微软试水信息检索[N];经济日报;2004年
4 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
5 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
6 应晓敏 窦文华;技术架构[N];计算机世界;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978