收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度学习的垃圾邮件过滤方法研究

黄鹤  
【摘要】:随着互联网相关应用的快速发展,广告技术的进步和电子邮件的普及,越来越多的垃圾邮件充斥着我们的生活。如何高效的区分垃圾邮件的研究也逐渐成为了热门课题。因自然语言在结构上有着很强的前后相关性,而且对于中文邮件直接转化成向量会有过高的维度产生,影响最后分类的准确性。基于内容和基于电子邮件源的识别技术现在是常用的两种垃圾邮件过滤方法。例如贝叶斯模型文本识别等就是基于内容的识别技术。白名单与黑名单机制、关键词匹配的是基于邮件来源的技术。电子邮件的数量增加可观、样式层出不穷,基于规则的方法不仅需要对邮件特征规则库进行不断的更新,同时还需要大量的人力。基于内容的方法当前已经取得令人可喜的成效,但随着科技的发展,现在垃圾邮件的制造者们开始大量的使用图像垃圾邮件,然后肆意的进行传播。这种方式的垃圾邮件更加难以检测且消耗的网络宽带也更大。论文主要分析总结当前常用的垃圾邮件的过滤方法,选择基于深度学习的分类算法作为本文研究的重点,建立垃圾邮件过滤模型。这之中具体工作以及贡献包括如下:1.本章设计了一种基于Skip-gram的CNNs-Highway邮件过滤模型(SGCH)。由于以前的词表示方法主要是独热编码(One-hot),但这样做的缺点是维度过高且数据稀疏,对于垃圾邮件过滤,单词之前和之后的语义信息不能很好地保留。目前,词嵌入(word embedding)可以有效地保留词汇语法和语义信息的词向量转换。本文提出的方法将基于词嵌入中Skip-gram模型将词分布式的映射到一个低维空间中,解决传统的One-hot编码词向量维度过高问题,然后结合不同卷积核的CNNs和Highway网络的级联网络,进行文本特征提取,最后在不同的中英文邮件数据集上进实验,证明其有效性。2.本章设计了一种基于深度卷积神经网络(DCNN)和双向GRU网络的垃圾邮件过滤模型(DCNN-BiGRU)。卷积神经网络可以很好的学习研究对象的局部特征,但同时存在其固有缺点,无法学习序列之间的关系。而循环神经网络则相反,在学习序列之间的关系方面有着不俗表现,但是对研究对象的局部信息却不是很敏感。为了弥补二者之间的缺陷,本文提出了改进的深度卷积神经网络和双向GRU网络,最后在CCERT中文邮件数据集上进行实验,证明其有效性。3.本章设计了一种基于决策级融合的垃圾邮件过滤方法。第1、2两个方法都对文本型垃圾邮件过滤技术的改进。然而,近年来,一些垃圾邮件的制造者利用图像承载着垃圾信息,从而进行大量的传播。单一的某一种模态邮件检测,其缺点是不能对邮件的所有信息进行全面的分析。本文基于前二个邮件文本的过滤方法并结合图像分类技术,提出了基于决策级融合的多模态架构模型,并在本文和图像混合的垃圾邮件数据库进行实验,证明其有效性。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 袁连海;李湘文;徐晶;;基于改进贝叶斯原理的垃圾邮件过滤算法研究[J];计算机与数字工程;2020年03期
2 寇晓淮;程华;;基于主题模型的垃圾邮件过滤系统的设计与实现[J];电信科学;2017年11期
3 郭淑敏;朱蓉;王晶晶;胡胜;陈佳辉;;基于贝叶斯算法的垃圾邮件过滤的方法研究[J];电脑知识与技术;2017年13期
4 代立华;黄立勤;;基于图像型垃圾邮件过滤系统的研究[J];电子世界;2016年19期
5 张宇帆;冯为华;方家茜;;浅析邮件系统中垃圾邮件过滤技术[J];数码世界;2017年05期
6 雷剑刚;孙细斌;;一种智能垃圾邮件过滤模型的仿真研究[J];计算机仿真;2013年05期
7 谷文成;周宏君;韩俊松;崔连河;;基于免疫算法的垃圾邮件过滤技术的研究[J];齐齐哈尔大学学报(自然科学版);2013年03期
8 张志瑛;;基于贝叶斯方法的垃圾邮件过滤技术综述[J];电脑知识与技术;2013年14期
9 石铁峰;;垃圾邮件过滤技术发展现状及展望[J];数字技术与应用;2012年05期
10 丁华福;王莹莹;韩咏;闵莉;邹钰;;面向垃圾邮件过滤的典型机器学习算法比较研究[J];黑龙江工程学院学报(自然科学版);2012年02期
11 金彩琴;裘国永;;对垃圾邮件过滤技术的问题研究[J];计算机技术与发展;2011年09期
12 宋文;张明新;彭太乐;;图像型垃圾邮件过滤技术研究综述[J];计算机系统应用;2011年10期
13 王忠桃;彭鑫;;基于机器学习的垃圾邮件过滤技术[J];中国科技信息;2010年06期
14 衣治安;毛岩;;垃圾邮件过滤技术概述[J];长江大学学报(自然科学版)理工卷;2010年01期
15 王志波;;双层垃圾邮件过滤模型研究[J];郑州轻工业学院学报(自然科学版);2010年03期
16 徐隽;郑佳谦;姚静;牛军钰;;一种基于时间流特性的垃圾邮件过滤方法[J];中文信息学报;2009年01期
17 贾云刚;;垃圾邮件过滤技术研究[J];通信与信息技术;2009年02期
18 于溯;;实际环境中垃圾邮件过滤测试方法研究[J];信息安全与通信保密;2009年04期
19 陈志贤;;垃圾邮件过滤技术研究综述[J];计算机应用研究;2009年05期
中国重要会议论文全文数据库 前17条
1 牛明珠;;病毒和垃圾邮件过滤技术浅析[A];二○○九年全国电力企业信息化大会论文集[C];2009年
2 王岩;;基于内容的垃圾邮件过滤技术[A];中国通信学会第六届学术年会论文集(中)[C];2009年
3 刘红翼;;一种垃圾邮件过滤器的设计与实现[A];广西计算机学会2005年学术年会论文集[C];2005年
4 张尼;方滨兴;;垃圾邮件过滤技术综述[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
5 张志斌;施水才;吕学强;;基于贝叶斯方法的中文垃圾邮件过滤技术综述[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 米淑云;辛阳;罗群;;一种新型垃圾邮件过滤系统的设计和研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
7 赵利;廖闻剑;彭艳兵;;基于中文主题的垃圾邮件过滤方法研究[A];中国通信学会第六届学术年会论文集(上)[C];2009年
8 周立兵;柳景超;;贝叶斯理论在垃圾邮件过滤中的应用分析[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年
9 杨晓光;李宁;吴昊;;基于P2P信誉体系垃圾邮件过滤系统的设计与实现[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
10 苏绥;林鸿飞;叶正;;基于字符语言模型的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
11 岑芳明;王明文;王鹏鸣;戴玉娟;;基于核偏最小二乘分类的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
12 李军;何晓宁;黄成哲;齐浩亮;雷国华;;基于特征贡献度的垃圾邮件过滤方法[A];第六届全国信息检索学术会议论文集[C];2010年
13 张尼;姜誉;方滨兴;郭莉;;一个基于邮件路径地理属性分析的垃圾邮件过滤算法[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
14 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
15 潘文锋;王斌;谭松波;;贝叶斯垃圾邮件过滤研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
16 张海雷;王会珍;王安慧;朱靖波;;基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
17 邓蔚;秦志光;;基于Kolmogorov复杂性的垃圾信息过滤研究综述[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
中国博士学位论文全文数据库 前11条
1 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
2 李鹏;图像型垃圾邮件过滤关键技术研究[D];哈尔滨工业大学;2013年
3 刘震;垃圾邮件过滤理论和关键技术研究[D];电子科技大学;2008年
4 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
5 段震;基于构造性学习的覆盖算法的发展及应用[D];安徽大学;2010年
6 王会珍;文本内容分类和主题追踪关键技术研究[D];东北大学;2008年
7 张泽明;人工免疫算法及其应用研究[D];中国科学技术大学;2007年
8 惠孛;基于即时分类的垃圾邮件过滤关键技术的研究[D];电子科技大学;2009年
9 王星;关系分类模型的学习界限与应用[D];哈尔滨工业大学;2015年
10 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
11 周喜川;非可信环境下的支持向量机研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前20条
1 文娅;基于行为识别的垃圾邮件过滤系统的研究与实现[D];宁夏大学;2019年
2 徐丹丹;个性化垃圾邮件过滤的扩展研究[D];南京航空航天大学;2019年
3 黄鹤;基于深度学习的垃圾邮件过滤方法研究[D];南京邮电大学;2019年
4 李宁;基于改进型树突状细胞算法的垃圾邮件过滤研究[D];东华大学;2019年
5 李成立;基于级联方法的图像型垃圾邮件过滤系统的设计与实现[D];东南大学;2019年
6 张柳艳;基于SDA的中文垃圾邮件过滤研究[D];南昌航空大学;2019年
7 种飞;Hadoop平台垃圾邮件过滤算法研究与实现[D];沈阳理工大学;2018年
8 代立华;级联型图像垃圾邮件过滤系统设计[D];福州大学;2017年
9 陶峰;基于内容的垃圾邮件过滤系统的设计与实现[D];武汉邮电科学研究院;2018年
10 辛兆君;基于社会计算的垃圾邮件过滤技术研究[D];中国石油大学(华东);2015年
11 袁国鑫;一种基于邮件头信息的三支决策垃圾邮件过滤方法[D];重庆邮电大学;2017年
12 王禾清;基于内容的垃圾邮件过滤技术研究[D];扬州大学;2017年
13 刘芬;基于内容的图像垃圾邮件过滤技术研究[D];中国科学技术大学;2010年
14 林炼;基于网络处理器的垃圾邮件过滤系统[D];厦门大学;2008年
15 刘应良;基于内容分析的图像垃圾邮件过滤技术研究[D];电子科技大学;2008年
16 徐隽;基于流数据特性的垃圾邮件过滤技术研究[D];复旦大学;2009年
17 陈超兰;基于粗糙集的垃圾邮件过滤研究[D];西南大学;2006年
18 赵利;基于中文主题变形的垃圾邮件过滤方法研究[D];武汉邮电科学研究院;2009年
19 麻荣誉;贝叶斯算法在垃圾邮件过滤技术中的研究与应用[D];西南石油大学;2011年
20 钱诚;改进的贝叶斯分类法在垃圾邮件过滤中的应用研究[D];华东理工大学;2012年
中国重要报纸全文数据库 前20条
1 ;测试垃圾邮件过滤系统[N];网络世界;2003年
2 ;不止是垃圾邮件过滤[N];网络世界;2005年
3 ;“垃圾邮件过滤系统”几乎没有一个完善的[N];新华每日电讯;2003年
4 本报记者 宋丽娜;整体大于部分之和[N];网络世界;2004年
5 ;如何选择和使用UTM设备[N];网络世界;2009年
6 本报记者 宋丽娜;整合安全平台的魅力[N];网络世界;2004年
7 王宗文;无线设备也有“垃圾”问题[N];计算机世界;2003年
8 ;用户关心的问题:MSN 8值吗?[N];计算机世界;2002年
9 本报记者 宋丽娜;面面俱到的内容安全[N];网络世界;2004年
10 ;“E-number”的保护伞[N];中国计算机报;2006年
11 ;三元分类阻止误报[N];网络世界;2006年
12 ;Mozilla Thunderbird挑战Outlook[N];计算机世界;2005年
13 ;发现就处理[N];中国计算机报;2004年
14 ;SaaS安全服务正趋于成熟[N];计算机世界;2007年
15 ;自动学习实现高效过滤[N];中国计算机报;2007年
16 ;Turbolinux PowerMail[N];中国计算机报;2003年
17 ;FCI过滤恶意流量[N];中国计算机报;2004年
18 ;多种功能一肩挑[N];计算机世界;2003年
19 ;道与魔的较量[N];中国计算机报;2004年
20 ;美讯智阻止一切不欢迎的内容[N];中国计算机报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978