收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于改进贝叶斯算法的中文信息分类研究

宋晓敏  
【摘要】:随着互联网的迅速发展,网络上出现了成千上万的新文本。大多数数据以文本的形式存储,数据呈指数增长,这些条件可能会导致我们进入信息爆炸时代。要管理如此庞大的文本量,文本分类问题亟待解决。其次,基于朴素贝叶斯的文本分类是建立在条件独立性假设的基础上的,这与现实不符。在众多通过弱化特征独立性假设来提高其准确性的建议中,特征加权方法受到的关注较少。而且,现有的特征加权方法都只是将学习到的特征权重合并到朴素贝叶斯公式中,根本没有将学习到的特征权重合并到其条件概率中。因此,本论文从特征加权的角度出发,提出了基于词频-逆文档频率特征权重和等级因子特征权重的贝叶斯算法,并将它应用到中文文本分类中,可以有效地管理庞大而复杂的数据,协助人们快速的查找信息并节约时间成本。本文的主要研究内容如下:(1)对文本分类中常用的朴素贝叶斯、KNN、支持向量机三种方法进行了比较。通过研究和实验,其结果说明朴素贝叶斯算法是中文文本分类中效果最佳的算法。(2)提出了一种基于词频-逆文档频率特征权重和等级因子特征权重的朴素贝叶斯算法—特征加权朴素贝叶斯算法。该算法将词频-逆文档频率特征权重合并到贝叶斯的条件概率公式中,其次将由词频-逆文档频率决定的等级因子特征权重导入到贝叶斯公式中,可以大大削弱其特征独立性假设的影响。(3)本文将特征加权朴素贝叶斯算法应用到中文文本分类中。由于网络上各种语料库错综复杂,目前针对中文文本分类问题至今没有一个可以一致使用的语料库,所以论文根据筛选规则构建了中文语料库。实验表明,特征加权朴素贝叶斯算法在文本分类领域的准确率高于标准的朴素贝叶斯算法,从而验证了提出的新算法是一种更有效、更准确的文本信息分类算法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈湘辉;;基于朴素贝叶斯算法的社交网络数据挖掘技术研究[J];计算机测量与控制;2017年06期
2 王宁宁;杨瑜;杨姗姗;;基于贝叶斯算法的网络广告监督管理[J];电子商务;2016年08期
3 王华宇;;朴素贝叶斯算法的综述[J];数学大世界(上旬);2019年02期
4 季永炜;闻宏强;赵浩强;周华;;利用朴素贝叶斯算法实现软件评测项目的自动分类[J];电脑编程技巧与维护;2014年06期
5 陈凯星;陈建英;;一种改进的基于朴素贝叶斯算法的垃圾短信过滤技术[J];福建电脑;2014年03期
6 张增伟;吴萍;;基于朴素贝叶斯算法的改进遗传算法分类研究[J];计算机工程与设计;2012年02期
7 皮靖;邵雄凯;肖雅夫;;基于朴素贝叶斯算法的主题爬虫的研究[J];计算机与数字工程;2012年06期
8 曹锐;;一种改进的朴素贝叶斯算法在入侵检测中的应用[J];电脑开发与应用;2009年09期
9 何培舟;何鹏;温向明;;基于贝叶斯算法的垃圾邮件过滤研究[J];微计算机应用;2008年08期
10 李翔鹰;叶枫;;一种基于多贝叶斯算法的垃圾邮件过滤方法[J];计算机工程与应用;2006年31期
11 邹晓辉;;朴素贝叶斯算法在文本分类中的应用[J];数字技术与应用;2017年12期
12 张颖江;库凯琳;;一种用于微信信息分类的改进贝叶斯算法[J];湖北工业大学学报;2017年04期
13 王友华;张建秋;;联合稀疏信号恢复的贪婪增强贝叶斯算法[J];电子学报;2016年04期
14 赵文涛;孟令军;赵好好;韩炳权;成亚飞;;分布式朴素贝叶斯算法在文本分类中的应用[J];测控技术;2016年06期
15 张华忠;;贝叶斯算法研究[J];数字技术与应用;2013年11期
16 王红玲;;基于贝叶斯算法的垃圾邮件过滤系统的研究[J];信息与电脑(理论版);2013年04期
17 张东亮;董礼;;基于改进的朴素贝叶斯算法在垃圾短信过滤中的研究[J];计算机测量与控制;2012年02期
18 汪明;张征;;SQL Server 2008 R2贝叶斯算法研究[J];河北软件职业技术学院学报;2011年03期
19 李欣;;一种对贝叶斯算法的改进算法分析[J];山东省农业管理干部学院学报;2011年05期
20 文桥;王卫平;;基于改进贝叶斯算法的入侵检测方法[J];计算机工程;2006年12期
中国重要会议论文全文数据库 前10条
1 彭小明;辛阳;;基于增量贝叶斯算法的主题爬虫的设计与实现[A];第九届中国通信学会学术年会论文集[C];2012年
2 潘文锋;王斌;谭松波;;贝叶斯垃圾邮件过滤研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
3 朱晓宁;孙斌;朱春鸽;;基于朴素贝叶斯算法的iVCE资源评价模型[A];2016年全国通信软件学术会议程序册与交流文集[C];2016年
4 许小林;唐文忠;;基于贝叶斯算法的垃圾邮件检测中数据预处理技术的研究[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
5 马永立;寿国础;胡怡红;钱宗珏;区海平;;新型网络流量识别分析系统及其性能评估[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
6 王天佐;胡华平;刘波;陈新;肖枫涛;;反垃圾邮件技术研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
7 徐峻;;药物分子设计方法学基本原理[A];中国化学会第30届学术年会摘要集-第二十五分会:化学信息学与化学计量学[C];2016年
8 滕大祝;程明;;基于网格技术的反垃圾邮件系统的设计[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
9 赖英旭;李征;;未知病毒检测技术的研究[A];2006年全国理论计算机科学学术年会论文集[C];2006年
10 张波云;殷建平;唐文胜;嵩敬波;;基于Elman网络的未知恶意代码检测系统研究与实现[A];2005年全国理论计算机科学学术年会论文集[C];2005年
中国博士学位论文全文数据库 前3条
1 华俊豪;分布式变分贝叶斯算法及其应用[D];浙江大学;2018年
2 陈鹏;无线通信中相位噪声和载波频偏的估计与消除[D];北京邮电大学;2012年
3 王珊珊;知识指导下的数据挖掘在新闻和金融工具之间因果关系上的应用[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 宋晓敏;基于改进贝叶斯算法的中文信息分类研究[D];北京邮电大学;2019年
2 李旭;基于贝叶斯分析的人脸识别算法[D];东北大学;2015年
3 杜坤;基于贝叶斯算法的齿轮箱故障诊断和剩余寿命预测[D];湖南工业大学;2018年
4 鲁彬;基于Spark的贝叶斯文本分类算法研究与实现[D];湖南大学;2016年
5 张坤;树增强朴素贝叶斯算法的改进及其并行化研究[D];长沙理工大学;2018年
6 陈珂馨;基于贝叶斯算法的民航机票预测系统研究[D];湖南大学;2017年
7 马刚;朴素贝叶斯算法的改进与应用[D];安徽大学;2018年
8 曹勇;基于微博内容的热点话题趋势预测设计与实现[D];新疆大学;2018年
9 杨忠强;基于属性加权和归约的朴素贝叶斯算法研究[D];广西大学;2013年
10 游天捷;改进贝叶斯算法及其在入侵检测的应用[D];华中科技大学;2016年
中国重要报纸全文数据库 前1条
1 记者 韩勉;藏大11项课题获国家自然科学基金资助[N];西藏日报(汉);2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978