收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于改进朴素贝叶斯算法的垃圾文本分类研究

彭革  
【摘要】:随着通信技术的飞速发展,5G通讯的普及,电子邮件数据呈现爆发式增长。垃圾邮件日益泛滥,对垃圾邮件的分类和过滤变得越来越迫切。对于数据量如此庞大且形态多样的垃圾邮件数据的处理,朴素贝叶斯(Naive Bayes)算法起到了非常好的效果。但由于Naive Bayes算法是基于特征相互独立属性的实验原理,以及样本数据集单一的局限性,导致在实验过程不充分,数据冗余度较大,实验准确度不够高的现象。本文提出了基于传统朴素贝叶斯在垃圾文本过滤中的优化和改进策略,不仅在样本数据上弥补了数据集的单一局限性,也在特征分类策略上提出特征加权的改进策略。本文的主要贡献如下:(1)针对传统的Naive Bayes算法基于相互独立特征属性的局限性,本文提出了一种基于Naive Bayes分类模型结合分词特征加权的改进策略,根据样本数据集在多类别多特征的情况下,根据为样本数据添加信号量引入了分词特征权重的方法,对每个特征属性添加权重数值和特征分类,从而拓展了分词向量的特征提取。最后促使Naive Bayes分类模型通过条件概率计算样本后验概率从而实现分类模型对于垃圾文本的分类与过滤。(2)针对Naive Bayes分类模型的构建需要庞大的数据集对模型进行充分的测试与训练,但本文所选取的样本数据量还不够。为了解决数据集单一的局限性和模型训练不充分的问题,本文引入了十折交叉验证的建模策略,通过在数据集预处理阶段,利用交叉验证的实验原理划分标准数据集,再进行Naive Bayes分类模型的构建。通过这种策略有效解决了数据集的局限性。实验结果表明,本文提出了的方法和策略在垃圾文本分类应用中起到了明显的改进,从数据集单一局限性来看,结合十折交叉验证的方法,不仅增大了样本数据,也对分类模型的构建提供了充分的训练。从引入分词特征权重的策略有效规避了特征相互独立的局限性,并且改进的方法具有良好的执行效率,不仅降低了数据冗余,也提高了垃圾文本分类的准确度。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 翟军昌;;基于朴素贝叶斯算法的个性化垃圾邮件过滤[J];长春师范学院学报(自然科学版);2009年04期
2 马小龙;;一种改进的贝叶斯算法在垃圾邮件过滤中的研究[J];计算机应用研究;2012年03期
3 周修考;;基于朴素贝叶斯算法的中文垃圾邮件过滤器的设计与应用[J];兰州工业高等专科学校学报;2010年06期
4 周强;李玉龙;罗旭;黄宁;;基于贝叶斯算法的垃圾邮件过滤系统的改进[J];科技信息;2011年03期
5 张俊飞;;基于改进朴素贝叶斯算法实现评教评语情感分析[J];现代计算机(专业版);2018年32期
6 王辉;陈泓予;刘淑芬;;基于改进朴素贝叶斯算法的入侵检测系统[J];计算机科学;2014年04期
7 王慎敏;;基于贝叶斯算法的上证指数择时研究[J];湖北经济学院学报(人文社会科学版);2021年01期
8 赵文涛;孟令军;赵好好;王春春;;朴素贝叶斯算法的改进与应用[J];测控技术;2016年02期
9 彭革;;基于朴素贝叶斯算法在垃圾邮件过滤中的研究综述[J];电脑知识与技术;2020年14期
10 李晶辉;张小刚;陈华;胡义函;;一种改进隐朴素贝叶斯算法的研究[J];小型微型计算机系统;2013年07期
11 李翔鹰;叶枫;;一种基于多贝叶斯算法的垃圾邮件过滤方法[J];计算机工程与应用;2006年31期
12 夏克俭;张涛;;基于贝叶斯算法的垃圾邮件过滤的研究[J];微计算机信息;2008年09期
13 程秀峰;范晓莹;杨金庆;;一种融合了基于朴素贝叶斯算法与情境感知的协同推荐系统——以大学图书馆实体图书推荐为例[J];现代情报;2019年02期
14 王辉;陈泓予;杨姗姗;;基于树加权朴素贝叶斯算法的入侵检测技术研究[J];计算机应用与软件;2016年02期
15 马世军;姚建;乔文;;基于贝叶斯理论的垃圾邮件过滤技术[J];硅谷;2009年13期
16 赵敬慧;魏振钢;;改进的贝叶斯垃圾邮件过滤算法[J];计算机系统应用;2016年10期
17 李欣倩;杨哲;任佳;;基于互信息与层次聚类双重特征选择的改进朴素贝叶斯算法[J];测控技术;2022年02期
18 李云帆;胡晧程;康佳乐;;朴素贝叶斯算法的应用[J];电脑编程技巧与维护;2018年10期
19 杨忠强;秦亮曦;;一种基于维规约的属性加权朴素贝叶斯算法[J];信息技术;2013年12期
20 何培舟;何鹏;温向明;;基于贝叶斯算法的垃圾邮件过滤研究[J];微计算机应用;2008年08期
中国重要会议论文全文数据库 前20条
1 张庆森;张吉松;赵丽华;刘鑫;任国乾;;基于朴素贝叶斯算法的结构设计规范分类方法[A];第七届全国BIM学术会议论文集[C];2021年
2 朱靖;王涛;吕建科;王晓博;;一种新的无线传感器网络分布式贝叶斯容错检测算法[A];第十四届全国信号和智能信息处理与应用学术会议论文集[C];2021年
3 周亮;;基于加权贝叶斯算法的5G安全防护研究[A];中国移动5G天线产业技术研讨会论文集[C];2020年
4 许小林;唐文忠;;基于贝叶斯算法的垃圾邮件检测中数据预处理技术的研究[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
5 潘文锋;王斌;谭松波;;贝叶斯垃圾邮件过滤研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
6 彭小明;辛阳;;基于增量贝叶斯算法的主题爬虫的设计与实现[A];第九届中国通信学会学术年会论文集[C];2012年
7 朱晓宁;孙斌;朱春鸽;;基于朴素贝叶斯算法的iVCE资源评价模型[A];2016年全国通信软件学术会议程序册与交流文集[C];2016年
8 邓聪;傅少荣;高嘉锜;潘嘉辉;;基于不完备数据集近邻聚类的缺失用电信息填补算法[A];福建省电机工程学会2020年学术年会获奖论文集(下册)[C];2021年
9 叶蓓;田淑芳;成秋明;葛云钊;;基于GF-5 AHSI高光谱影像的岩性填图应用研究[A];首届全国矿产勘查大会论文集[C];2021年
10 卢功林;葛俏;王玉娟;谈世磊;曹红伟;卢志鹏;;基于深度学习的不停车自动超载检测方法[A];2020中国自动化大会(CAC2020)论文集[C];2020年
11 王羽;姜晓夏;陆辰;王振宇;王珩;吴振锋;;军事机器阅读理解数据集构建与评估[A];2019第七届中国指挥控制大会论文集[C];2019年
12 周立兵;柳景超;;贝叶斯理论在垃圾邮件过滤中的应用分析[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年
13 缪国宇;刘洪鹏;苏文学;刘荣生;赵相东;;基于数据仓库的企业指标分析系统[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
14 王子恒;齐勇刚;刘军;;路面交通标志检测调研:数据集及算法[A];2018中国汽车工程学会年会论文集[C];2018年
15 郭景峰;杜京;马倩;邹晓红;;一种基于数据集性质的快速等差模式聚类算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
16 孟烨;张鹏;宋大为;王雷;;信息检索系统性能对数据集特性的依赖性分析[A];第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年
17 田捷;;三维医学影像数据集处理的集成化平台[A];2003年全国医学影像技术学术会议论文汇编[C];2003年
18 冷传良;;飞机化铣成样板划线数据集设计方法探索[A];第十届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2013年
19 范明;魏芳;;挖掘基本显露模式用于分类[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
20 马永立;寿国础;胡怡红;钱宗珏;区海平;;新型网络流量识别分析系统及其性能评估[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
中国博士学位论文全文数据库 前20条
1 华俊豪;分布式变分贝叶斯算法及其应用[D];浙江大学;2018年
2 阮曙芬;属性加权多项式朴素贝叶斯算法及应用研究[D];中国地质大学;2021年
3 陈迪;耕地数量与质量时空变化遥感监测研究[D];中国农业科学院;2019年
4 孙秀宝;基于CMA-LSAT v1.0数据集的近百年全球陆表气温变化研究[D];南京信息工程大学;2018年
5 皇群博;晴空条件FY-3C大气微波垂直探测资料变分同化研究[D];国防科技大学;2018年
6 马飞;复杂场景下的行人重识别关键技术研究[D];武汉大学;2019年
7 李星达;钢琴多音估计问题和音乐生成问题的深度学习方法[D];吉林大学;2019年
8 刘皓;基于深度学习的行人再识别问题研究[D];合肥工业大学;2017年
9 王建培;聚类有效性分析及其在电学层析成像中的应用[D];天津大学;2017年
10 杨勋;跨视域行人再识别若干问题研究[D];合肥工业大学;2017年
11 李超;高阶多数据集建模新方法与应用研究[D];哈尔滨工程大学;2017年
12 申彦;大规模数据集高效数据挖掘算法研究[D];江苏大学;2013年
13 严远亭;不完整数据集的多视角集成分类研究[D];安徽大学;2016年
14 邱晨;贝叶斯学习算法及其应用研究[D];中国地质大学;2020年
15 谷琼;面向非均衡数据集的机器学习及在地学数据处理中的应用[D];中国地质大学;2009年
16 钱鹏江;大规模数据集聚类方法研究及应用[D];江南大学;2011年
17 吴毅;数字人全身分割数据集的建立及人体胸腔与盆腔的数字化研究[D];第三军医大学;2012年
18 吴国清;科学计算时变数据集的数据挖掘算法研究[D];中国工程物理研究院;2009年
19 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
20 陈鹏;无线通信中相位噪声和载波频偏的估计与消除[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前20条
1 彭革;基于改进朴素贝叶斯算法的垃圾文本分类研究[D];长江大学;2021年
2 李雯;基于贝叶斯技术的邮件过滤研究[D];山东师范大学;2008年
3 张云;贝叶斯算法在垃圾邮件过滤中的应用研究[D];云南大学;2012年
4 王斯琴;改进朴素贝叶斯算法在垃圾邮件过滤中的应用[D];重庆师范大学;2020年
5 魏晓宁;基于朴素贝叶斯算法的垃圾邮件过滤系统研究[D];苏州大学;2007年
6 董喜双;基于小生境遗传算法的增量贝叶斯算法[D];哈尔滨工程大学;2008年
7 张启宇;基于贝叶斯算法的垃圾邮件过滤系统的研究与设计[D];曲阜师范大学;2006年
8 次曲(Tse Qu);基于朴素贝叶斯算法的藏文垃圾邮件过滤关键技术研究[D];电子科技大学;2013年
9 王姗姗;基于增量贝叶斯算法的主题爬虫[D];南京大学;2018年
10 刘欣;基于改进的朴素贝叶斯算法和KNN算法在招聘文本分类中的应用[D];河南大学;2019年
11 秦怀强;若干改进朴素贝叶斯分类算法的研究与应用[D];山东科技大学;2018年
12 郑玉茜;改进朴素贝叶斯算法对细胞色素P450底物特异性的预测[D];上海交通大学;2016年
13 宋晓敏;基于改进贝叶斯算法的中文信息分类研究[D];北京邮电大学;2019年
14 李寒霜;基于变分贝叶斯算法的线性变参数系统辨识[D];江南大学;2019年
15 李旭;基于贝叶斯分析的人脸识别算法[D];东北大学;2015年
16 杜坤;基于贝叶斯算法的齿轮箱故障诊断和剩余寿命预测[D];湖南工业大学;2018年
17 鲁彬;基于Spark的贝叶斯文本分类算法研究与实现[D];湖南大学;2016年
18 张坤;树增强朴素贝叶斯算法的改进及其并行化研究[D];长沙理工大学;2018年
19 马刚;朴素贝叶斯算法的改进与应用[D];安徽大学;2018年
20 曹勇;基于微博内容的热点话题趋势预测设计与实现[D];新疆大学;2018年
中国重要报纸全文数据库 前20条
1 记者 张梦然;最大规模婴儿微生物组数据集建立[N];科技日报;2018年
2 记者 张梦然;癌症学研究公布最新数据集[N];科技日报;2018年
3 记者 季张颖;上海已累计开放2100项公共数据集[N];上海法治报;2019年
4 记者 王莉英;行政审批网上全流程办理率年底超80%[N];深圳特区报;2017年
5 记者 金昶 通讯员 陈斯音;我国发布首款全球海洋Argo网格数据集产品[N];中国海洋报;2017年
6 中国青年报·中青在线记者 谢宛霏;为AI领域“造血”[N];中国青年报;2017年
7 记者 罗旭;全球人工智能挑战赛开赛[N];光明日报;2017年
8 记者 刘钊 通讯员 徐文慧 杨溯;自主研发数据集显示今年上半年最热[N];中国气象报;2015年
9 冉瑞奎 刘晓林 戴艳萍;均一化历史气温数据集问世[N];中国气象报;2006年
10 通讯员廖雅琴记者冯竞;“国人数字化可视人体数据集”完成[N];科技日报;2003年
11 记者 张梦然;科学家以图片数据集揭秘“生命奥秘”[N];科技日报;2015年
12 王素琴刘晓林 通讯员 王新华;宇如聪强调用好16个新数据集产品[N];中国气象报;2008年
13 金水高 刘丽华 陶庄;基本数据集标准新进展[N];计算机世界;2006年
14 记者 刘钊;自研数据集显示今年将成最热一年[N];中国气象报;2015年
15 记者 刘浪 通讯员 廖雅琴;中国首套数字化“可视人”数据集在渝通过成果鉴定[N];重庆日报;2003年
16 本报记者 刘霞;AI助力抗“疫” 美发布新冠病毒数据集[N];科技日报;2020年
17 地学系;地学系阳坤课题组发布中国区域高分辨率气象驱动数据集[N];新清华;2020年
18 记者 陈玮;科学调查听民意 统计数据集建议[N];兰州日报;2014年
19 余海蓉梁超;四川研制高质量省级气象数据集[N];中国气象报;2007年
20 昌家杰 邹莹 本报记者 于莘明;探究“数字人”的虚与实[N];科技日报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978