收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Word2vec的电子邮件分类

缪沛恩  
【摘要】:随着信息化技术的不断发展,电子邮件以其廉价性、实用性、即时性成为互联网应用最广的服务,电子邮件因为其突出的便捷性极大的便利了人们的日常沟通交流,对社会经济的发展产生了极大的促进作用,玉有微瑕也带来了一个意外的副产品——垃圾邮件。垃圾邮件的泛滥不但造成了极大的经济损失,同时还威胁着信息的安全,不仅影响社会风气,污染人文环境,还扭曲了人们的人生观、价值观,产生了诸多的社会的问题,时刻打击着人们对网络交流的信心,阻碍着互联网的发展。因此,如何解决垃圾邮件的问题,如何提高垃圾邮件过滤技术成了迫在眉睫的难题。目前在国内外垃圾邮件过滤技术研究中,以基于邮件内容的分类成为了主流,但传统的机器学习算法在做文本特征化的过程中不可避免的存在着诸如维度过大、数据集太过稀疏、数据彼此独立没有联系,丢失太多重要特征从而导致分类的准确率达不到人们的理想要求,本文在基于邮件内容的基础上,利用Word2vec中的Skip-gram模型+负采样策略来训练分布式文本词向量,并针对过拟合现象对模型进行相应的调整,本文相关工作如下:(1)数据集采用国际文本检索会议提供的一个公开的垃圾邮件语料库——中文数据集Trec06c,分词后训练词向量,经实验比对,将词向量的维度设置为200维,考虑到邮件内容长短不一,将词向量进行tf-idf加权处理后作为输入数据集输入到BP神经网络模型中,对比传统机器学习模型的性能得到了明显提高。(2)因为深度学习里参数众多,极容易出现过拟合现象并且计算速度慢,所以本文中将会在模型中加入Dropout层,并将数据集分成多个Bitch-size,分批输入模型,另外基于accuracy曲线图会做多次对比实验,选择最好的那个Dropout系数,可以让模型具有更好的泛化性。(3)在以往2分类中一般使用Sigmoid分类器,但鉴于Sigmoid函数越到极限收敛速度越慢的缺点,本文中将采用Softmax分类器,并在分类器中加入L2正则惩罚项,可以让模型对不同的样本表现出更好的鲁棒性。(4)为提高收敛速度,弥补传统的梯度下降法学习率固定无法修改的弊端,改用自适应学习率优化算法Adam算法。(5)将最佳结果与传统的贝叶斯模型和KNN模型进行对比,本文改进后的BP神经网络模型预测结果的Precision、Accuracy和Recall要好于传统的机器学习算法。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 陈锐峰;王硕杨;;邮件分类[J];科学中国人;2016年26期
2 汤伟;程家兴;纪霞;;统计学理论在邮件分类中的应用研究[J];计算机技术与发展;2008年12期
3 张俊;;垃圾邮件过滤的数据挖掘建模分析[J];蚌埠学院学报;2014年01期
4 邓春燕;陶多秀;吕跃进;;粗糙集与决策树在电子邮件分类与过滤中的应用[J];计算机工程与应用;2009年16期
5 郑亚莉;王康;;基于概率神经网络的垃圾邮件分类[J];计算机与现代化;2008年01期
6 南丽丽;;垃圾邮件过滤方法浅析[J];运城学院学报;2005年05期
7 衷路生;刘庆雄;龚锦红;张永贤;;基于Elastic Net-Decision Tree的垃圾邮件过滤研究[J];科学技术与工程;2015年32期
8 ZDNet;;防止垃圾邮件过滤器误判正常信息的十项要诀[J];网络与信息;2011年09期
9 李笛;张玉红;胡学钢;;一种基于主动贝叶斯分类技术的垃圾邮件过滤方法[J];合肥工业大学学报(自然科学版);2008年09期
10 刘震;谭良;周明天;;垃圾邮件分类的偏依赖特性研究[J];电子学报;2007年10期
11 蒿峰;王小海;庞传军;;基于Word2vec的电网调度词汇词向量生成方法及语音识别应用[J];内蒙古电力技术;2020年05期
12 张佳宁;严冬梅;王勇;;基于word2vec的语音识别后文本纠错[J];计算机工程与设计;2020年11期
13 黄国伟;刘云霞;陈志;;基于用户反馈的个性化垃圾邮件过滤方法[J];电子设计工程;2014年15期
14 闫斐;;基于贝叶斯模型的邮件过滤系统[J];太原师范学院学报(自然科学版);2010年02期
15 王德文;赵文清;朱永利;;一个基于粗糙集理论的邮件分类模型[J];计算机工程与应用;2006年18期
16 赵凯;;模糊决策树算法在邮件分类中的应用[J];科技通报;2012年06期
17 李维杰;徐勇;;简体中文垃圾邮件分类的实验设计及对比研究[J];计算机工程与应用;2007年25期
18 邱科宁,郭清顺,张小波;基于Agent的个性化分类邮件系统研究[J];计算机工程与应用;2005年07期
19 石凤贵;;基于自然语言处理的Word2Vec词向量应用[J];黑河学院学报;2020年07期
中国重要会议论文全文数据库 前20条
1 周立兵;柳景超;;贝叶斯理论在垃圾邮件过滤中的应用分析[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年
2 牛明珠;;病毒和垃圾邮件过滤技术浅析[A];二○○九年全国电力企业信息化大会论文集[C];2009年
3 王岩;;基于内容的垃圾邮件过滤技术[A];中国通信学会第六届学术年会论文集(中)[C];2009年
4 张尼;方滨兴;;垃圾邮件过滤技术综述[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
5 刘红翼;;一种垃圾邮件过滤器的设计与实现[A];广西计算机学会2005年学术年会论文集[C];2005年
6 赵利;廖闻剑;彭艳兵;;基于中文主题的垃圾邮件过滤方法研究[A];中国通信学会第六届学术年会论文集(上)[C];2009年
7 米淑云;辛阳;罗群;;一种新型垃圾邮件过滤系统的设计和研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
8 Jonny Bentwood;;营销中的AI应用与未来发展[A];清研智库系列研究报告(2020年第5期)[C];2020年
9 陈一;吴笛;段俐;康琦;;机器学习在BM对流研究中的应用[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
10 骆新斗;郭昊;刘沛清;;基于机器学习对低雷诺数下平板转捩模拟修正[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
11 夏振华;郭先文;陈十一;;关于机器学习RANS建模的一些思考[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
12 彭俊;胡宗民;姜宗林;;基于机器学习预测激波相互作用位置的研究[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
13 王子敬;吴晓妍;宋诚谦;秦丰华;罗喜胜;;基于GPU并行和机器学习的气固相互作用研究[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
14 无奇;尹杰茜;余晨;王海明;洪伟;;机器学习辅助的多目标天线优化方法[A];2019年全国天线年会论文集(下册)[C];2019年
15 张伟;;一种用于流动模拟及建模的机器学习方法[A];第三十一届全国水动力学研讨会论文集(上册)[C];2020年
16 柏晓东;张伟;;基于机器学习的湍流涡激运动[A];第三十一届全国水动力学研讨会论文集(上册)[C];2020年
17 倪欢欢;韩益亮;段晓巍;李喆;;机器学习中的安全和隐私问题研究进展[A];2020中国系统仿真与虚拟现实技术高层论坛论文集[C];2020年
18 赖力鹏;;机器学习与计算化学方法在小分子药物筛选与开发中的应用实践(英文)[A];2019中国化学会第十五届全国计算(机)化学学术会议论文集[C];2019年
19 沈超;侯廷军;;基于人工智能技术的蛋白-小分子打分方法研究[A];2019中国化学会第十五届全国计算(机)化学学术会议论文集[C];2019年
20 杨学志;陆达伟;刘倩;江桂斌;;辨微识源:颗粒物的同位素指纹分析[A];中国化学会第22届全国色谱学术报告会及仪器展览会论文集(第一卷)[C];2019年
中国博士学位论文全文数据库 前20条
1 刘震;垃圾邮件过滤理论和关键技术研究[D];电子科技大学;2008年
2 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
3 ;[D];;年
4 ;[D];;年
5 ;[D];;年
6 ;[D];;年
7 ;[D];;年
8 ;[D];;年
9 ;[D];;年
10 ;[D];;年
11 王磊;基于机器学习的药物—靶标相互作用预测研究[D];中国矿业大学;2018年
12 张庆;钙钛矿型功能材料的基因组工程研究[D];上海大学;2018年
13 管月;医学肿瘤影像分类算法研究及其在肝癌上的应用[D];南京大学;2018年
14 郝小可;基于机器学习的影像遗传学分析及其应用研究[D];南京航空航天大学;2017年
15 施建明;基于机器学习的产品剩余寿命预测方法研究[D];中国科学院大学(中国科学院遥感与数字地球研究所);2018年
16 陈再毅;机器学习中的一阶优化算法收敛性研究[D];中国科学技术大学;2018年
17 陆海进;Zr合金热动力学研究及机器学习[D];上海大学;2018年
18 戴望州;一阶逻辑领域知识与机器学习的结合研究[D];南京大学;2019年
19 符丹卉;基于MRI结构成像与静息态功能成像影像特征的机器学习法在AIDS患者中的应用研究[D];广西医科大学;2019年
20 Kashif Sultan(克希夫);5G移动通信网络中的呼叫记录分析[D];北京科技大学;2019年
中国硕士学位论文全文数据库 前20条
1 缪沛恩;基于Word2vec的电子邮件分类[D];南昌大学;2020年
2 王敬;基于机器学习的垃圾邮件分类的研究[D];曲阜师范大学;2020年
3 高阳;基于Word2Vec方法的情感分析研究及应用[D];厦门大学;2019年
4 周茜;融合word2vec和Single-Pass的微博话题检测方法研究[D];山东师范大学;2019年
5 晏世凯;基于Word2vec的并行多标签文本分类方法[D];重庆邮电大学;2018年
6 左彬靖;基于word2vec和自注意力机制的文本分类研究[D];广东工业大学;2019年
7 宋健;基于Word2Vec的主题爬虫研究与实现[D];吉林大学;2018年
8 王云龙;基于Word2Vec新词识别的评论情感分析系统的研究与实现[D];哈尔滨工业大学;2018年
9 郑泽;基于Word2Vec词嵌入模型研究[D];辽宁工程技术大学;2018年
10 苏彬;基于Word2Vec的自动文摘系统的设计与实现[D];河北科技大学;2015年
11 黄国玉;基于神经网络的邮件分类识别研究[D];长安大学;2006年
12 朱凯健;基于向量空间模型的垃圾邮件过滤系统的设计与实现[D];内蒙古大学;2015年
13 郭锐;基于隐私度的邮件分类方法研究[D];中北大学;2020年
14 张贤龙;基于支持向量机和稀疏技术的中文垃圾邮件分类研究[D];华东交通大学;2013年
15 郎加云;基于内容特征的垃圾邮件过滤问题研究[D];合肥工业大学;2010年
16 万亚利;基于CPSO优化CNN的中文垃圾邮件分类研究[D];重庆邮电大学;2018年
17 杨善雯;基于spark的并行贝叶斯垃圾邮件分类系统[D];重庆师范大学;2019年
18 谢伟全;基于用户知识的商务电子邮件分类研究[D];哈尔滨工业大学;2006年
19 卢扬竹;基于内容的垃圾邮件过滤技术研究[D];西南交通大学;2009年
20 李笛;基于内容的垃圾邮件过滤方法研究[D];合肥工业大学;2008年
中国重要报纸全文数据库 前20条
1 采访人 本报记者 卢健;“中间三天”问题 最对机器学习“胃口”[N];中国气象报;2020年
2 ;你也可以体验的机器学习[N];电脑报;2020年
3 骆无意;机器学习可改变人类探测太空方式[N];中国航天报;2020年
4 记者 张梦然;机器学习诞生新型“研究员”[N];科技日报;2020年
5 记者 刘霞;机器学习发现数百种潜在新冠药物[N];科技日报;2020年
6 InfoWorld网站特约编辑兼评论员 Martin Heller 编译 陈琳华;如何选择云机器学习平台[N];计算机世界;2020年
7 CIO.com一名资深撰稿人 Clint Boulton 编译 沈建苗;机器学习的5个成功案例[N];计算机世界;2020年
8 CIO.com资深作家 Clint Boulton 编译 Charles;领先一步:机器学习的10个成功案例[N];计算机世界;2018年
9 Bob Violino 编译 Charles;盲目冒进:机器学习的5个失败案例[N];计算机世界;2018年
10 本报驻波士顿记者 侯丽;深入挖掘机器学习潜力[N];中国社会科学报;2019年
11 王方 编译;菌自何方 机器学习早知道[N];中国科学报;2019年
12 Matt Asay 编译 Monkey King;为什么机器学习没有捷径可循?[N];计算机世界;2019年
13 本报记者 操秀英;当量子计算遇到机器学习会碰撞出什么火花?[N];科技日报;2019年
14 彭博企业数据业务全球负责人 Gerard Francis;金融数据质量决定机器学习时代的投资回报[N];计算机世界;2019年
15 Isaac Sacolick 编译 Charles;关于机器学习的5个要点[N];计算机世界;2019年
16 记者 张梦然;全新算法助机器学习抵抗干扰[N];科技日报;2019年
17 惠赞瑾;《科学向左,科幻向右》:机器学习即将成为现实[N];中国会计报;2019年
18 赵熙熙;机器学习有望找到致命病毒宿主[N];中国科学报;2018年
19 本报记者 马爱平;联邦学习或可破解机器学习数据获取难题[N];科技日报;2019年
20 赵广立;防特网将机器学习应用于高级威胁检测[N];中国科学报;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978