收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于CNN的双向LSTM注意力机制垃圾邮件分类的研究与分析

吴小晴  
【摘要】:随着科学技术的迅速发展,电子邮件通信受到大家的广泛使用,同时也带来一些问题。垃圾邮件始终干扰着电子邮件的正常通信,用户经常会收到一些包含垃圾信息或病毒的邮件,诱导用户点击邮件里的链接导致电脑中病毒,甚至银行卡信用卡盗刷等严重危害用户利益的情况。目前过滤垃圾邮件主要有两种方式,第一类为基于发送来源的识别技术,第二类为基于文本内容的识别技术。利用深度学习领域知识,建立一个垃圾邮件分类的模型,从而提高垃圾邮件识别的正确率。在已有文本分类算法的基础上,改进了 TF-IDF(term frequency-inversedocument frequency)权重的计算公式,对原有的算法模型做出了改进,提出了一种新的CNN-BiLSTM-Attention模型应用于邮件文本分类任务中。1.介绍传统的邮件文本分类流程,分别从预处理、权重计算、向量化文本数据、分类器四个方面,介绍了多种方法来实现分类。并从机器学习算法和神经网络算法两个方面详细介绍了在文本分类的应用。2.针对邮件分类中出现的词条分配的权重不均和计算结果偏向于长文本问题,对IDF(Inverse Document Frequency)的计算公式进行改进,加入了特征值的文本数量比因子γ和卡方统计量,并将改进的IDF与TFC计算公式结合,得到新的权重算法模型TFC’。通过对比TFC’、TF-IDF和TFC算法的实验结果,验证了 TFC’算法的准确性,将得到的向量化数据用朴素贝叶斯做分类器。实验结果表明,改进后的TFC’在邮件分类上的正确率能达到85%左右。3.将卷积神经网络(Convolutional Neural Networks,CNN)与 Bi-LSTM(Bi-directional Long Short-Term Memory)相结合,利用双向循环神经网络(Bi-LSTM)可以更准确得到文本的全局特征,弥补了卷积神经网络的不足之处,在一定程度上提高了文本分类提取的精度。4.加入了注意力机制,能够更好提取重要的文本词条,根据概率分布,针对性的向量化处理输入的文本特征,在注意力机制后加入了 Bi-LSTM层,能够更细致的提取词条特征,改进权重计算与Word2vec结合得到向量化后的文本数据作为CNN层的输入,实验结果表明垃圾邮件分类的准确率提高到了 92.7%。


知网文化
【相似文献】
中国期刊全文数据库 前17条
1 梁晓鸽;赵风海;;基于CNN_LSTM的语音情感识别系统设计[J];电声技术;2020年03期
2 吴潇颖;李锐;吴胜昔;;基于CNN与双向LSTM的行为识别算法[J];计算机工程与设计;2020年02期
3 王雪娇;张超敏;;基于CNN和LSTM的自然场景文本检测应用[J];仪表技术;2020年09期
4 沙俊城;;深度学习在医疗领域的发展及其改进[J];中国新通信;2019年03期
5 王星峰;;基于CNN和LSTM的智能文本分类[J];辽东学院学报(自然科学版);2019年02期
6 王海涛;宋文;王辉;;一种基于LSTM和CNN混合模型的文本分类方法[J];小型微型计算机系统;2020年06期
7 赵建利;白格平;李英俊;鲁耀;;基于CNN- LSTM的短期风电功率预测[J];自动化仪表;2020年05期
8 黄国玉;龙润生;;基于神经网络的邮件分类识别模型研究[J];南华大学学报(自然科学版);2008年02期
9 王硕;王岩松;王孝兰;;基于CNN和LSTM混合模型的车辆行为检测方法[J];智能计算机与应用;2020年02期
10 吴进;闵育;马思敏;张伟华;;一种基于CNN与LSTM结合的微表情识别算法[J];电讯技术;2020年01期
11 赵晓丹;徐燕;;垃圾邮件分类技术对比研究[J];信息网络安全;2014年02期
12 郑亚莉;王康;;基于概率神经网络的垃圾邮件分类[J];计算机与现代化;2008年01期
13 谢伟全;叶强;李一军;;基于用户知识的中文电子邮件分类[J];计算机应用研究;2007年03期
14 刘震;谭良;周明天;;垃圾邮件分类的偏依赖特性研究[J];电子学报;2007年10期
15 张洁;;改进支持向量机的电子邮件分类[J];现代电子技术;2017年01期
16 赵凯;;模糊决策树算法在邮件分类中的应用[J];科技通报;2012年06期
17 惠孛;吴跃;;基于不完全朴素贝叶斯分类模型的垃圾邮件分类模型[J];计算机应用;2009年03期
中国重要会议论文全文数据库 前10条
1 唐上;宋冬梅;向亮;单新建;王斌;;基于LSTM神经网络的电离层TEC预测[A];2019年中国地球科学联合学术年会论文集(十一)——专题28:大地震发生的物理机制与预测方法和技术、专题29:“张衡一号”卫星应用与国家地球物理场卫星探测计划、专题30:空间大地测量与地壳动力学[C];2019年
2 栗国星;石秉学;;一种用于手写体数字识别的电流型CNN特征提取器[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
3 张嘉露;;CNN对华报道的倾向和影响因素[A];决策论坛——基于公共管理学视角的决策研讨会论文集(上)[C];2015年
4 李鹏程;孙敏;庞溟舟;;基于LSTM神经网络的公交到站时间预测[A];第37届中国控制会议论文集(F)[C];2018年
5 柯任辰;徐维庆;杨科;;一种基于LSTM神经网络的自适应巡航研究[A];2019中国汽车工程学会年会论文集(1) [C];2019年
6 原达;张彩明;刘晓华;李晋江;;基于CNN的Mumford-Shah图像轮廓提取[A];中国计算机图形学进展2008--第七届中国计算机图形学大会论文集[C];2008年
7 蒋振超;邓永;姜青山;古亮;;一种基于两阶段字符级LSTM的僵尸网络检测方法[A];第32次全国计算机安全学术交流会论文集[C];2017年
8 杨红成;;外媒对香港“占中”事件报道的媒介框架分析——以CNN网站为例[A];首届长三角影视传媒研究生学术论坛论文集[C];2015年
9 梅杰;;基于LSTM神经网络的有效停车泊位短时预测方法研究[A];创新驱动与智慧发展——2018年中国城市交通规划年会论文集[C];2018年
10 殷一帆;何春柳;王嘉秋;徐标;李志勇;;基于卷积神经网络(CNN)方法表征冠状动脉粥样硬化斑块组分的研究[A];第十二届全国生物力学学术会议暨第十四届全国生物流变学学术会议会议论文摘要汇编[C];2018年
中国博士学位论文全文数据库 前8条
1 葛芸;基于CNN迁移特征融合与池化的高分辨率遥感图像检索研究[D];南昌大学;2019年
2 齐鑫;基于LSTM的相位差异图像波前检测技术研究[D];中国科学院大学(中国科学院长春光学精密机械与物理研究所);2020年
3 谢合亮;LSTM在多因子量化投资模型中的改进及应用研究[D];中央财经大学;2019年
4 陈芳跃;CNN符号动力系统[D];上海大学;2004年
5 王涛;NCN钳形铑(Ⅲ)以及CNN钳形钯(Ⅱ)和钌(Ⅱ)化合物物合成与催化性能研究[D];郑州大学;2014年
6 Adeel Akram;基于GAN和CNN模型的人脸画像合成方法[D];西安电子科技大学;2019年
7 Saman Riaz;基于模糊粗糙C均值的图像大数据CNN聚类与分类[D];西安电子科技大学;2019年
8 马萍;复杂环境中联合CNN与IMU的单目视觉SLAM方法研究[D];中国科学院大学(中国科学院长春光学精密机械与物理研究所);2020年
中国硕士学位论文全文数据库 前10条
1 吴小晴;基于CNN的双向LSTM注意力机制垃圾邮件分类的研究与分析[D];南昌大学;2020年
2 张建虎;基于CNN和双向LSTM的中文分词与词性标注一体化模型[D];上海交通大学;2019年
3 黄国玉;基于神经网络的邮件分类识别研究[D];长安大学;2006年
4 王研婷;基于CNN和LSTM的船舶航迹预测[D];大连海事大学;2020年
5 郭锐;基于隐私度的邮件分类方法研究[D];中北大学;2020年
6 万亚利;基于CPSO优化CNN的中文垃圾邮件分类研究[D];重庆邮电大学;2018年
7 杨善雯;基于spark的并行贝叶斯垃圾邮件分类系统[D];重庆师范大学;2019年
8 谢伟全;基于用户知识的商务电子邮件分类研究[D];哈尔滨工业大学;2006年
9 周志军;中文邮件分类系统的研究及其实现[D];苏州大学;2005年
10 王永乐;基于LSTM的煤炭价格预测模型研究[D];西安科技大学;2020年
中国重要报纸全文数据库 前10条
1 本报特约记者 胡浩;CNN“年度英雄”是个秘鲁人[N];环球时报;2018年
2 马潇;CNN记者提“通话门”激怒乌总统[N];环球时报;2019年
3 本报记者 王盼盼;外交部驳CNN涉新疆不实报道[N];环球时报;2019年
4 本报驻美国特约记者 杨宏彦 本报特约记者 郝树华;特朗普发怒将CNN记者赶出白宫[N];环球时报;2018年
5 本报记者 高雷;新加坡打脸CNN不实报道[N];环球时报;2019年
6 于名;CNN就失实报道向港警道歉[N];环球时报;2019年
7 志灵;CNN的毒言恶语是混淆视听的呈堂证供[N];中国青年报;2008年
8 王泰广;刘更力:名副其实的邮坛“老小伙”[N];中国集邮报;2014年
9 本报驻联合国记者 袁博 贾泽驰;AT&T收购时代华纳必须先卖CNN?[N];文汇报;2017年
10 毛建国;封锁消息:人质劫持事件中CNN可贵的理性[N];中国青年报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978