收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于内容的垃圾邮件过滤技术研究

杨丽华  
【摘要】:随着Internet的发展,电子邮件也由于它的便捷得到快速发展,但随之而来的垃圾邮件却给经济和人们生活带来很大危害。因此,研究邮件的自动过滤具有重要意义。邮件过滤技术是反垃圾邮件的重要手段,目前主要有黑白名单过滤、基于规则的过滤和基于内容的过滤。本文主要研究的是基于邮件内容的过滤。 本文在分析当前邮件过滤技术的基础上,借鉴了文本分类的思想,把机器学习方法支持向量机引入到垃圾邮件过滤中。由于对分类有贡献的样本只有支持向量,而支持向量机方法却花费了大量时间在非支持向量的优化上,这就严重影响了支持向量机的效率;而邮件过滤对实时性要求又比较高。因此,本文提出了把改进的支持向量机算法GBSMO和NNCSMO应用到邮件过滤中,实验结果表明,在不影响分类精度的情况下,提高了算法速度。 本文主要工作包括: 1.比较并选择了标准邮件集,完成了邮件的预处理工作。实现了信息增益特征选择算法,通过实验对比,得出了PU系列语料库合适的特征维数。使用词频反文档频率计算选择的特征词的权重,通过算法把标准邮件集处理成了支持向量机算法可以直接处理的向量空间模型的形式。 2.针对支持向量机算法时间复杂度较大的问题,提出了两种改进方法GBSMO算法和NNCSMO算法。实验结果表明,改进后的算法在保持较高精度的同时,一定程度上减少了计算量,降低了时间计算复杂度,在对垃圾邮件进行分类与过滤时具有较好的性能。 3.针对不同邮件错判的代价不同这一特点,把处理数据不平衡的不同惩罚参数引入到邮件过滤中,取得了较高的准确率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张义;孔颖;朱翔;;基于神经网络模型的垃圾邮件过滤器的设计与实现[J];电脑知识与技术;2010年12期
2 周威成,马素霞,齐林海;一种基于机器学习的垃圾邮件智能过滤方法[J];现代电力;2003年01期
3 周潇;帅建梅;;基于感知学习的垃圾邮件过滤算法[J];计算机工程与应用;2007年28期
4 王鹏鸣;;垃圾邮件过滤中潜在语义索引的应用[J];郑州大学学报(理学版);2010年02期
5 陈柄汗;垃圾邮件过滤专家——MailMate[J];电脑技术-HELLO-IT;2003年09期
6 盛亮;李弼程;林琛;;基于信息粒度原理的垃圾邮件过滤方法[J];信息工程大学学报;2007年01期
7 张学农;张立成;;基于简单贝叶斯的中英文垃圾邮件过滤的比较分析[J];计算机应用与软件;2008年08期
8 张学农;张立成;;累积反馈学习的简单贝叶斯垃圾邮件过滤[J];计算机应用与软件;2008年10期
9 欧德宁;马军;;基于内含链接特征分析的垃圾邮件过滤技术[J];郑州大学学报(理学版);2009年02期
10 余承依;;基于贝叶斯增量分类的邮件过滤研究[J];科学技术与工程;2009年09期
11 赵晶莹;郭海;王玲芬;;基于事例推理的中文垃圾邮件过滤[J];微电子学与计算机;2009年12期
12 滕岩;王华新;罗继秋;;基于领域知网的垃圾邮件过滤方法[J];计算机安全;2010年02期
13 廖明涛;张德运;李金库;;基于朴素贝叶斯和层次聚类的两阶段垃圾邮件过滤方法[J];微电子学与计算机;2007年08期
14 王平;;一种改进的CHI算法在垃圾邮件过滤中的应用[J];网络安全技术与应用;2008年12期
15 莫秉戈;;粗糙贝叶斯改进算法在垃圾邮件分类中的应用[J];现代计算机(专业版);2008年10期
16 林琛;李弼程;;一种有效的垃圾邮件过滤新方法[J];计算机应用;2006年08期
17 梁宏斌;严正俊;;LS-SVM在垃圾邮件过滤中的应用[J];现代电子技术;2007年17期
18 董建设;袁占亭;张秋余;;代价敏感支持向量机在垃圾邮件过滤中的应用[J];计算机工程;2008年10期
19 王祖辉;姜维;;基于支持向量机的垃圾邮件过滤方法[J];计算机工程;2009年13期
20 王晖;;贝叶斯分类算法在垃圾邮件过滤中的应用[J];黑龙江交通科技;2009年04期
中国重要会议论文全文数据库 前6条
1 潘文锋;王斌;于满泉;谭松波;;Winnow算法在垃圾邮件过滤中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 张海雷;王会珍;王安慧;朱靖波;;基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
3 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 邓蔚;秦志光;;基于Kolmogorov复杂性的垃圾信息过滤研究综述[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
5 苏绥;林鸿飞;叶正;;基于字符语言模型的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 岑芳明;王明文;王鹏鸣;戴玉娟;;基于核偏最小二乘分类的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前3条
1 惠孛;基于即时分类的垃圾邮件过滤关键技术的研究[D];电子科技大学;2009年
2 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
3 张泽明;人工免疫算法及其应用研究[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 王龙龙;基于贝叶斯算法的垃圾邮件过滤系统设计与实现[D];吉林大学;2014年
2 周威成;信息过滤方法的研究与应用[D];华北电力大学(北京);2003年
3 单成海;反垃圾邮件研究[D];电子科技大学;2006年
4 高庆国;基于双隶属度模糊支持向量机的邮件过滤[D];哈尔滨理工大学;2009年
5 万波;邮件过滤系统专用文件系统的设计与实现[D];电子科技大学;2005年
6 甘棠仪;基于属性论方法的垃圾邮件过滤系统设计与研究[D];上海海事大学;2005年
7 胡可;基于人工免疫系统的信息过滤技术研究[D];西南交通大学;2006年
8 于洪杰;垃圾邮件过滤技术算法研究[D];大连海事大学;2007年
9 王悦;Linux下Webmail反垃圾邮件模型的研究与实现[D];沈阳工业大学;2005年
10 高加旺;基于支持向量机的垃圾邮件过滤模型研究[D];哈尔滨理工大学;2008年
中国重要报纸全文数据库 前10条
1 ;“垃圾邮件过滤系统”几乎没有一个完善的[N];新华每日电讯;2003年
2 华子;图解垃圾邮件过滤方法[N];计算机世界;2004年
3 ;测试垃圾邮件过滤系统[N];网络世界;2003年
4 陈柄汗;垃圾邮件过滤专家-MailMate[N];中国计算机报;2003年
5 寒山;微软想打垃圾邮件主意?[N];科技日报;2003年
6 飞猪;技术才是硬道理[N];中国计算机报;2004年
7 易水;新词集锦(399)[N];计算机世界;2003年
8 湖北 张湘凯;慎用Web邮箱过滤功能[N];电脑报;2002年
9 本报记者 宋丽娜;整体大于部分之和[N];网络世界;2004年
10 王修增;慎用Web邮箱过滤功能[N];中国电脑教育报;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978