收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于机器学习的垃圾邮件分类的研究

王敬  
【摘要】:垃圾邮件开始泛滥于20世纪末期,具有成本低廉,传输便利,诱导性强等特点。某些商业组织利用此契机作为谋取利益的一种手段,肆意传播垃圾邮件。垃圾邮件的广泛传播给人们的工作生活带来了诸多不便与烦恼。大家的收件箱里都会有一些垃圾邮件的存在,它们不仅会占用用户的信箱存储空间,而且会占用用户阅读邮件的时间和精力。同时,用户在处理垃圾邮件时也需要投入大量的时间。垃圾邮件的形式多种多样,也一直随着互联网的发展不断更新,反垃圾邮件工作面临巨大挑战。因此,不断更新垃圾邮件分类和过滤的手段和方法,对改善邮件的使用现状具有重要的现实意义。本文借助数据挖掘工具,并运用机器学习的方法研究了两个方面的内容。所有的分析都是借助R语言编程软件实现的。第一,对整个邮件数据集的文本内容进行研究分析,分别从垃圾邮件和非垃圾邮件两个角度,分析两种文本内容中出现的高频词汇,并且画出两种邮件内容对应的词云图,最后分析高频词的语义和词性,并得出相关结论。第二,利用朴素贝叶斯方法、支持向量机法、K近邻法对7000条邮件数据进行建模分析。本文选取的评价指标为精确率,通过比较三种算法建立的分类器模型,得出本文分类效果最优的是拉普拉斯参数为2.5时的朴素贝叶斯分类模型,精确率能够达到97.1%。本文的创新点主要有以下三个方面:一是通过分析文本内容辅助建立模型进行邮件性质的判断;二是利用多种方法分别建立多个分类器,从多个模型中选择最优模型;三是在K近邻法中,使用十折交叉验证法和对比模型精确率双重方法选择最佳k值。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈锐峰;王硕杨;;邮件分类[J];科学中国人;2016年26期
2 刘震;谭良;周明天;;垃圾邮件分类的偏依赖特性研究[J];电子学报;2007年10期
3 郑亚莉;王康;;基于概率神经网络的垃圾邮件分类[J];计算机与现代化;2008年01期
4 黄国玉;龙润生;;基于神经网络的邮件分类识别模型研究[J];南华大学学报(自然科学版);2008年02期
5 赵凯;;模糊决策树算法在邮件分类中的应用[J];科技通报;2012年06期
6 张洁;;改进支持向量机的电子邮件分类[J];现代电子技术;2017年01期
7 惠孛;吴跃;;基于不完全朴素贝叶斯分类模型的垃圾邮件分类模型[J];计算机应用;2009年03期
8 赵晓丹;徐燕;;垃圾邮件分类技术对比研究[J];信息网络安全;2014年02期
9 邓春燕;陶多秀;吕跃进;;粗糙集与决策树在电子邮件分类与过滤中的应用[J];计算机工程与应用;2009年16期
10 李艳;范明;;基于基本显露模式的电子邮件分类与过滤技术[J];南京大学学报(自然科学版);2008年05期
11 云炜;段禅伦;;基于粗糙集理论的双向垃圾邮件分类模型的研究[J];计算机工程与科学;2008年10期
12 张洪军;段会川;;基于支持向量机的电子邮件分类模型设计[J];信息技术与信息化;2006年05期
13 王为民;按照时限进行邮件分类的思考[J];中国邮政;2000年02期
14 徐治国;;基于朴素贝叶斯的垃圾邮件分类系统的设计[J];盐城工学院学报(自然科学版);2008年02期
15 谢伟全;叶强;李一军;;基于用户知识的中文电子邮件分类[J];计算机应用研究;2007年03期
16 秦晓倩;;危险理论在电子邮件分类中的应用[J];华中师范大学学报(自然科学版);2010年01期
17 陆青梅;尹四清;;基于数据挖掘的邮件分类识别研究[J];现代计算机(专业版);2007年08期
18 石铁峰;;支持向量机在电子邮件分类中的应用研究[J];计算机仿真;2011年08期
19 刘震;周明天;;基于核方法的贝叶斯邮件分类网络研究[J];电子科技大学学报;2007年03期
20 曾超;吕钊;顾君忠;;基于概念向量空间模型的电子邮件分类[J];计算机应用;2008年12期
中国重要会议论文全文数据库 前20条
1 Jonny Bentwood;;营销中的AI应用与未来发展[A];清研智库系列研究报告(2020年第5期)[C];2020年
2 陈一;吴笛;段俐;康琦;;机器学习在BM对流研究中的应用[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
3 骆新斗;郭昊;刘沛清;;基于机器学习对低雷诺数下平板转捩模拟修正[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
4 ;科技民生报告丛书——无人胜有人——聚焦无人平台的发展与应用 第五章 未来的无人之境 第二节 人工智能助力无人平台“跨越险阻”[A];科技民生报告丛书——无人胜有人——聚焦无人平台的发展与应用[C];2019年
5 钟昊;宗孝鹏;;图像情报处理中的小样本机器学习应用研究[A];2019第七届中国指挥控制大会论文集[C];2019年
6 王红睿;;机器学习背景下的太阳辐射数据基本重构方法[A];中国天文学会2018年学术年会摘要集[C];2018年
7 王晓春;高芳;;基于机器学习和大数据的智能化故障预警系统[A];2017-2019年“学术金秋”获奖论文集[C];2020年
8 殷昌盛;杨若鹏;邹小飞;鲁义威;宋笑雨;;指挥智能化研究综述[A];第八届中国指挥控制大会论文集[C];2020年
9 岳玲;肖世富;;基于机器学习对主观认知下降的7年随访预测研究[A];2019全国老年痴呆与认知障碍相关疾病学术大会论文摘要[C];2019年
10 王珏;;归纳机器学习[A];2001年中国智能自动化会议论文集(上册)[C];2001年
11 王衍鲁;张利会;张淑洁;石洁茹;王鹏;;大学新生学校适应的个体与环境因素探究:基于机器学习的考察[A];第二十届全国心理学学术会议--心理学与国民心理健康摘要集[C];2017年
12 张长水;;大数据机器学习[A];2015年中国自动化大会摘要集[C];2015年
13 何琳;侯汉清;;基于标引经验和机器学习相结合的多层自动分类[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
14 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
15 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
16 吴沧浦;;智能系统与机器学习的新领域[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
17 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
18 ;基于机器学习的大数据防诈骗能力研究与应用[A];2018中国信息通信大会论文摘要集[C];2018年
19 ;基于机器学习的影响感知无线根因问题快速定位研究[A];2018中国信息通信大会论文摘要集[C];2018年
20 吴娜;刁联旺;;基于机器学习的博弈对抗模型优化框架软件系统设计[A];第六届中国指挥控制大会论文集(上册)[C];2018年
中国博士学位论文全文数据库 前20条
1 刘震;垃圾邮件过滤理论和关键技术研究[D];电子科技大学;2008年
2 殷曦;基于机器学习及统计计算模型的膜蛋白结构预测[D];上海交通大学;2017年
3 杨静;蛋白质残基相互作用预测及其在结构建模中的应用研究[D];上海交通大学;2018年
4 韩启迪;基于非线性成矿动力系统的机器学习方法应用研究[D];中国地质大学(北京);2019年
5 薛红新;基于机器学习方法的分类与预测问题研究[D];中北大学;2019年
6 刘浏;基于机器学习的恶意代码检测与分类技术研究[D];国防科技大学;2017年
7 陈旭展;基于机器学习的智能机器人环境视觉感知方法研究[D];华中科技大学;2019年
8 吴念;CO_2电还原的理论计算研究[D];武汉大学;2019年
9 胡胜山;面向机器学习的安全外包计算研究[D];武汉大学;2019年
10 王磊;基于机器学习的药物—靶标相互作用预测研究[D];中国矿业大学;2018年
11 张庆;钙钛矿型功能材料的基因组工程研究[D];上海大学;2018年
12 管月;医学肿瘤影像分类算法研究及其在肝癌上的应用[D];南京大学;2018年
13 郝小可;基于机器学习的影像遗传学分析及其应用研究[D];南京航空航天大学;2017年
14 施建明;基于机器学习的产品剩余寿命预测方法研究[D];中国科学院大学(中国科学院遥感与数字地球研究所);2018年
15 陈再毅;机器学习中的一阶优化算法收敛性研究[D];中国科学技术大学;2018年
16 陆海进;Zr合金热动力学研究及机器学习[D];上海大学;2018年
17 戴望州;一阶逻辑领域知识与机器学习的结合研究[D];南京大学;2019年
18 符丹卉;基于MRI结构成像与静息态功能成像影像特征的机器学习法在AIDS患者中的应用研究[D];广西医科大学;2019年
19 Kashif Sultan(克希夫);5G移动通信网络中的呼叫记录分析[D];北京科技大学;2019年
20 梁霄;机器学习在量子物理学中的应用[D];中国科学技术大学;2019年
中国硕士学位论文全文数据库 前20条
1 王敬;基于机器学习的垃圾邮件分类的研究[D];曲阜师范大学;2020年
2 黄国玉;基于神经网络的邮件分类识别研究[D];长安大学;2006年
3 万亚利;基于CPSO优化CNN的中文垃圾邮件分类研究[D];重庆邮电大学;2018年
4 杨善雯;基于spark的并行贝叶斯垃圾邮件分类系统[D];重庆师范大学;2019年
5 谢伟全;基于用户知识的商务电子邮件分类研究[D];哈尔滨工业大学;2006年
6 周志军;中文邮件分类系统的研究及其实现[D];苏州大学;2005年
7 郭锐;基于隐私度的邮件分类方法研究[D];中北大学;2020年
8 李洋;基于数据挖掘的邮件分类识别研究[D];重庆大学;2004年
9 胡文洁;基于MNNB方法的邮件分类技术[D];电子科技大学;2010年
10 孙英娟;邮件分类的智能Agent系统的研究[D];东北师范大学;2004年
11 曾超;基于WordNet概念向量空间模型的电子邮件分类方法的研究与实现[D];华东师范大学;2008年
12 缪沛恩;基于Word2vec的电子邮件分类[D];南昌大学;2020年
13 缪沛恩;基于Word2vec的电子邮件分类[D];南昌大学;2020年
14 吴小晴;基于CNN的双向LSTM注意力机制垃圾邮件分类的研究与分析[D];南昌大学;2020年
15 吴小晴;基于CNN的双向LSTM注意力机制垃圾邮件分类的研究与分析[D];南昌大学;2020年
16 尚尔昕;基于深度学习的图像型垃圾邮件分类[D];北京邮电大学;2017年
17 林宏正;基于粗糙集和神经网络的邮件分类研究[D];暨南大学;2008年
18 沈慧羊;结合用户属性的邮件分类方法研究[D];华中科技大学;2016年
19 李方圆;基于决策树的邮件分类技术研究[D];湖南师范大学;2007年
20 田震生;基于文本聚类技术的邮件分类系统的研究与实现[D];河海大学;2005年
中国重要报纸全文数据库 前20条
1 王泰广;刘更力:名副其实的邮坛“老小伙”[N];中国集邮报;2014年
2 采访人 本报记者 卢健;“中间三天”问题 最对机器学习“胃口”[N];中国气象报;2020年
3 ;你也可以体验的机器学习[N];电脑报;2020年
4 骆无意;机器学习可改变人类探测太空方式[N];中国航天报;2020年
5 记者 张梦然;机器学习诞生新型“研究员”[N];科技日报;2020年
6 记者 刘霞;机器学习发现数百种潜在新冠药物[N];科技日报;2020年
7 InfoWorld网站特约编辑兼评论员 Martin Heller 编译 陈琳华;如何选择云机器学习平台[N];计算机世界;2020年
8 CIO.com一名资深撰稿人 Clint Boulton 编译 沈建苗;机器学习的5个成功案例[N];计算机世界;2020年
9 CIO.com资深作家 Clint Boulton 编译 Charles;领先一步:机器学习的10个成功案例[N];计算机世界;2018年
10 Bob Violino 编译 Charles;盲目冒进:机器学习的5个失败案例[N];计算机世界;2018年
11 本报驻波士顿记者 侯丽;深入挖掘机器学习潜力[N];中国社会科学报;2019年
12 王方 编译;菌自何方 机器学习早知道[N];中国科学报;2019年
13 Matt Asay 编译 Monkey King;为什么机器学习没有捷径可循?[N];计算机世界;2019年
14 本报记者 操秀英;当量子计算遇到机器学习会碰撞出什么火花?[N];科技日报;2019年
15 彭博企业数据业务全球负责人 Gerard Francis;金融数据质量决定机器学习时代的投资回报[N];计算机世界;2019年
16 Isaac Sacolick 编译 Charles;关于机器学习的5个要点[N];计算机世界;2019年
17 记者 张梦然;全新算法助机器学习抵抗干扰[N];科技日报;2019年
18 惠赞瑾;《科学向左,科幻向右》:机器学习即将成为现实[N];中国会计报;2019年
19 赵熙熙;机器学习有望找到致命病毒宿主[N];中国科学报;2018年
20 本报记者 马爱平;联邦学习或可破解机器学习数据获取难题[N];科技日报;2019年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978