收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

改进朴素贝叶斯算法在垃圾邮件过滤中的应用

王斯琴  
【摘要】:电子邮件伴随着互联网的发展越来越普及,但是电子邮件的可靠性与安全性引起人们的重视,因为各种垃圾邮件、钓鱼岛邮件、骚然邮件极大地影响了人们的生活。同时,根据我国不良网络不垃圾信息举报受理中心的统计,有一半以上的用户因为垃圾邮件而浪费掉了大量的时间、大量的资源信息,还有一半用户因为垃圾邮件遭受到了一定的经济损失。目前被人们认可的垃圾邮件过滤技术有:身份认证、行为模式识别、和白名单和关键字过滤技术等等之类的技术。与此同时,垃圾邮件的误判会给网民造成一定的经济损失与时间损失,加之很多人都不愿打开垃圾邮件这一过滤功能,而且垃圾邮件本身也携带各种病毒,或多或少给人们带来了一定的困惑。随着科学技术的发展,朴素贝叶斯分类算法已成为现在最流行的技术之一,正是因为传统朴素贝叶斯分类算法良好的邮件分类效果,受到了广大研究者的关注。但是朴素贝叶斯受到自身条件属性需得相互独立的限制,实际上很多样本却不符合属性条件间相互独立等要求导致分类准确率很低,为了提高垃圾邮件分类的准确性,本文提出了结合主动学习的K-近邻局部加权朴素贝叶斯算法,为的是能够在一定程度上提高邮件分类的精确度和效率。本文主要研究工作如下:(1)如果样本本身一旦错分,那么,在训练过程中不断地更新、迭代,会导致错误不断地累积,继而得到一个易误分的分类器。因此,本文采取结合主动学习的K-近邻局部加权朴素贝叶斯算法(K-Locally Weighted Naive Bayes,K-LWNB),即人工选取一些最具有价值的样本进行标注,以此来提高样本本身的准确性,从而降低分类器的误分率。其中K-近邻局部加权朴素贝叶斯算法对垃圾邮件分类,能够让垃圾邮件的分类效果相对于传统的朴素贝叶斯算法来说,能够更有效地提高邮件的分类准确率和精确度。(2)本文采用ham(正常邮件)和spam(垃圾邮件)作为数据样本集,同时将文本内容解析成词向量,去停用词并提取出关键特征词,继而检查细条并保证解析的正确性,同时计算出不同独立特征关键词的条件概率,然后判断是否属于垃圾邮件。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 周强;李玉龙;罗旭;黄宁;;基于贝叶斯算法的垃圾邮件过滤系统的改进[J];科技信息;2011年03期
2 彭革;;基于朴素贝叶斯算法在垃圾邮件过滤中的研究综述[J];电脑知识与技术;2020年14期
3 池万乐;张笑笑;;改进贝叶斯算法的垃圾邮件过滤技术研究[J];现代计算机;2007年04期
4 马小龙;;一种改进的贝叶斯算法在垃圾邮件过滤中的研究[J];计算机应用研究;2012年03期
5 王红玲;;基于贝叶斯算法的垃圾邮件过滤系统的研究[J];信息与电脑(理论版);2013年08期
6 翟军昌;;基于朴素贝叶斯算法的个性化垃圾邮件过滤[J];长春师范学院学报(自然科学版);2009年04期
7 周修考;;基于朴素贝叶斯算法的中文垃圾邮件过滤器的设计与应用[J];兰州工业高等专科学校学报;2010年06期
8 杨雷;曹翠玲;孙建国;张立国;;改进的朴素贝叶斯算法在垃圾邮件过滤中的研究[J];通信学报;2017年04期
9 莫秉戈;;粗糙贝叶斯改进算法在垃圾邮件分类中的应用[J];现代计算机(专业版);2008年10期
10 季永炜;闻宏强;赵浩强;周华;;利用朴素贝叶斯算法实现软件评测项目的自动分类[J];电脑编程技巧与维护;2014年06期
11 郑炜;沈文;张英鹏;;基于改进朴素贝叶斯算法的垃圾邮件过滤器的研究[J];西北工业大学学报;2010年04期
12 何培舟;何鹏;温向明;;基于贝叶斯算法的垃圾邮件过滤研究[J];微计算机应用;2008年08期
13 李翔鹰;叶枫;;一种基于多贝叶斯算法的垃圾邮件过滤方法[J];计算机工程与应用;2006年31期
14 张增伟;吴萍;;基于朴素贝叶斯算法的改进遗传算法分类研究[J];计算机工程与设计;2012年02期
15 皮靖;邵雄凯;肖雅夫;;基于朴素贝叶斯算法的主题爬虫的研究[J];计算机与数字工程;2012年06期
16 时雷;虎晓红;席磊;;朴素贝叶斯分类算法及其应用研究[J];光盘技术;2008年11期
17 陈凯星;陈建英;;一种改进的基于朴素贝叶斯算法的垃圾短信过滤技术[J];福建电脑;2014年03期
18 钟春梅;;朴素贝叶斯算法在支气管炎诊断中的应用[J];计算机与数字工程;2021年02期
19 郭念国;;朴素贝叶斯算法与车辆风险分类[J];河南城建学院学报;2020年03期
中国重要会议论文全文数据库 前19条
1 潘文锋;王斌;谭松波;;贝叶斯垃圾邮件过滤研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
2 彭小明;辛阳;;基于增量贝叶斯算法的主题爬虫的设计与实现[A];第九届中国通信学会学术年会论文集[C];2012年
3 朱晓宁;孙斌;朱春鸽;;基于朴素贝叶斯算法的iVCE资源评价模型[A];2016年全国通信软件学术会议程序册与交流文集[C];2016年
4 许小林;唐文忠;;基于贝叶斯算法的垃圾邮件检测中数据预处理技术的研究[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
5 周立兵;柳景超;;贝叶斯理论在垃圾邮件过滤中的应用分析[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年
6 马永立;寿国础;胡怡红;钱宗珏;区海平;;新型网络流量识别分析系统及其性能评估[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
7 牛明珠;;病毒和垃圾邮件过滤技术浅析[A];二○○九年全国电力企业信息化大会论文集[C];2009年
8 张志斌;施水才;吕学强;;基于贝叶斯方法的中文垃圾邮件过滤技术综述[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 王岩;;基于内容的垃圾邮件过滤技术[A];中国通信学会第六届学术年会论文集(中)[C];2009年
10 刘红翼;;一种垃圾邮件过滤器的设计与实现[A];广西计算机学会2005年学术年会论文集[C];2005年
11 张尼;方滨兴;;垃圾邮件过滤技术综述[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
12 米淑云;辛阳;罗群;;一种新型垃圾邮件过滤系统的设计和研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
13 赵利;廖闻剑;彭艳兵;;基于中文主题的垃圾邮件过滤方法研究[A];中国通信学会第六届学术年会论文集(上)[C];2009年
14 王天佐;胡华平;刘波;陈新;肖枫涛;;反垃圾邮件技术研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
15 徐峻;;药物分子设计方法学基本原理[A];中国化学会第30届学术年会摘要集-第二十五分会:化学信息学与化学计量学[C];2016年
16 杨晓光;李宁;吴昊;;基于P2P信誉体系垃圾邮件过滤系统的设计与实现[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
17 滕大祝;程明;;基于网格技术的反垃圾邮件系统的设计[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
18 李军;何晓宁;黄成哲;齐浩亮;雷国华;;基于特征贡献度的垃圾邮件过滤方法[A];第六届全国信息检索学术会议论文集[C];2010年
19 赖英旭;李征;;未知病毒检测技术的研究[A];2006年全国理论计算机科学学术年会论文集[C];2006年
中国博士学位论文全文数据库 前5条
1 华俊豪;分布式变分贝叶斯算法及其应用[D];浙江大学;2018年
2 陈鹏;无线通信中相位噪声和载波频偏的估计与消除[D];北京邮电大学;2012年
3 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
4 王珊珊;知识指导下的数据挖掘在新闻和金融工具之间因果关系上的应用[D];中国科学技术大学;2009年
5 刘震;垃圾邮件过滤理论和关键技术研究[D];电子科技大学;2008年
中国硕士学位论文全文数据库 前20条
1 王斯琴;改进朴素贝叶斯算法在垃圾邮件过滤中的应用[D];重庆师范大学;2020年
2 次曲(Tse Qu);基于朴素贝叶斯算法的藏文垃圾邮件过滤关键技术研究[D];电子科技大学;2013年
3 张启宇;基于贝叶斯算法的垃圾邮件过滤系统的研究与设计[D];曲阜师范大学;2006年
4 杨忠强;基于属性加权和归约的朴素贝叶斯算法研究[D];广西大学;2013年
5 刘欣;基于改进的朴素贝叶斯算法和KNN算法在招聘文本分类中的应用[D];河南大学;2019年
6 秦怀强;若干改进朴素贝叶斯分类算法的研究与应用[D];山东科技大学;2018年
7 郑玉茜;改进朴素贝叶斯算法对细胞色素P450底物特异性的预测[D];上海交通大学;2016年
8 宋晓敏;基于改进贝叶斯算法的中文信息分类研究[D];北京邮电大学;2019年
9 李寒霜;基于变分贝叶斯算法的线性变参数系统辨识[D];江南大学;2019年
10 李旭;基于贝叶斯分析的人脸识别算法[D];东北大学;2015年
11 杜坤;基于贝叶斯算法的齿轮箱故障诊断和剩余寿命预测[D];湖南工业大学;2018年
12 鲁彬;基于Spark的贝叶斯文本分类算法研究与实现[D];湖南大学;2016年
13 张坤;树增强朴素贝叶斯算法的改进及其并行化研究[D];长沙理工大学;2018年
14 陈珂馨;基于贝叶斯算法的民航机票预测系统研究[D];湖南大学;2017年
15 马刚;朴素贝叶斯算法的改进与应用[D];安徽大学;2018年
16 曹勇;基于微博内容的热点话题趋势预测设计与实现[D];新疆大学;2018年
17 张云;贝叶斯算法在垃圾邮件过滤中的应用研究[D];云南大学;2012年
18 游天捷;改进贝叶斯算法及其在入侵检测的应用[D];华中科技大学;2016年
19 董喜双;基于小生境遗传算法的增量贝叶斯算法[D];哈尔滨工程大学;2008年
20 王龙龙;基于贝叶斯算法的垃圾邮件过滤系统设计与实现[D];吉林大学;2014年
中国重要报纸全文数据库 前15条
1 ;不止是垃圾邮件过滤[N];网络世界;2005年
2 华子;图解垃圾邮件过滤方法[N];计算机世界;2004年
3 ;测试垃圾邮件过滤系统[N];网络世界;2003年
4 ;“垃圾邮件过滤系统”几乎没有一个完善的[N];新华每日电讯;2003年
5 陈柄汗;垃圾邮件过滤专家-MailMate[N];中国计算机报;2003年
6 本报记者 宋丽娜;整体大于部分之和[N];网络世界;2004年
7 ;如何选择和使用UTM设备[N];网络世界;2009年
8 本报记者 宋丽娜;整合安全平台的魅力[N];网络世界;2004年
9 John D. Halamka;IT手段的两面性[N];计算机世界;2007年
10 记者 韩勉;藏大11项课题获国家自然科学基金资助[N];西藏日报(汉);2012年
11 山枫;致力一体化威胁管理[N];中国计算机报;2004年
12 王金元;电邮软件挑战Outlook霸主地位[N];北京科技报;2003年
13 黄梦;ServGate整合安全平台受欢迎[N];电脑商报;2004年
14 张烨;没有灵丹妙药[N];中国计算机报;2004年
15 《计算机世界》评测实验室 李韬;构建一体化安全方案[N];计算机世界;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978