收藏本站
《华南理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

垃圾邮件的特征选择及检测方法研究

陈彬  
【摘要】: 伴随着互联网的快速发展,目前中国网民数量已达3.38亿,居世界首位。与此同时,日益泛滥的垃圾邮件问题也引起了人们的普遍关注,因为它不仅给人们的工作和生活带来了很大的困扰,也给社会经济带来了巨大的损失。针对垃圾邮件的各种检测与过滤方法应运而生并且得到迅速的发展。然而,越来越常用的、不断更新的垃圾邮件伪装以及攻击手段却正严重影响着这些这类检测方法的有效性和实用性。 垃圾邮件经常借助一些替换、插入、编码等手段,在不影响阅读人对信息的理解的同时隐藏自身的垃圾特性,干扰过滤器对其特征的挖掘与提取,从而达到规避过滤器检测的目的,致使一些被认为行之有效的检测方法在实际应用中准确度不高。同时,垃圾邮件属于动态变化的流信息,而现在大多数针对该类信息的特征提取和检测分类方法,都将其视为一般的文本分类,无法体现基于时间流的数据特征随时间变化而发生动态变化的特点。此外,垃圾邮件的检测,是一种大规模的实时数据处理,部分基于机器学习的检测方法由于在模型更新和快速检测上存在性能上的瓶颈,无法很好地投入到实际应用中。 总之,不断发展的垃圾邮件形式和检测技术现状都表明,垃圾信息泛滥问题的解决,必须综合运用多种检测技术并加以完善和创新,充分挖掘网络垃圾信息所具备的有效特征,与时俱进。同时还需要做到检测准确率与检测效率的相平衡,使其符合大规模实际应用的要求。 基于上述事实,本文系统地分析了垃圾邮件的背景、现状以及研究网络垃圾信息检测技术的现实意义,通过跟踪国内外的网络垃圾信息的先进检测技术,较全面地归纳出现有的网络垃圾信息检测技术的发展现状,比较分析了各种技术的优点以及不足,提出了亟待解决的问题。在已有技术成果的基础上,本文从理论和应用两个层面,对垃圾邮件检测的关键技术进行深入的研究和创新,主要完成了以下几项工作: (1)针对垃圾邮件伪装技术,通过对大规模真实邮件数据的统计和分析,归纳出垃圾邮件报文格式中隐藏的独特行为特征,提出新颖的电子邮件头增强的特征选择方法。在此基础上,将邮件头包含的行为特征和内容特征相结合,并以指纹向量的形式来表示。实验表明,该特征表示方法应用在贝叶斯过滤器中能有效加强过滤器在应对垃圾邮件变种的时的识别能力,提高检测准确率,并且计算简单,适用于大规模应用。 (2)提出了将垃圾邮件信息视为动态的数据流进行处理,综合考虑邮件特征的生命周期和使用频率,设计了一种较新颖的使用统计时序的垃圾邮件过滤特征选择方法,在有效减低特征冗余的同时也较好地反映了垃圾邮件特征随时序变化而产生的动态变化;同时提出了一种基于时序预测模型的过滤器阈值动态调优方法,使其与垃圾邮件数量规模保持关联性,能够自适应不同时间段的垃圾邮件强度。基于时序的垃圾邮件特征选择有利于提高垃圾邮件过滤器对最新内容形式的垃圾邮件的识别能力,降低特征存储空间,提高检测速度。 (3)针对属性相互独立的限制性假设与垃圾邮件的特征不匹配的事实,引入均-1依赖估计(Aggregating One-dependence Estimators,AODE)来对这一特征属性独立的假设进行弱化,通过垃圾邮件特有的结构化特征,构建新的贝叶斯特征属性网,提出了一种结构化的SAODE(Structural-AODE)算法,并通过基于类条件分布的特征选择优化方法以及基于最大最小熵的主动学习策略,保证了算法的计算时间开销和准确度。实验结果表明该方法能进一步提高贝叶斯方法在垃圾邮件检测上的精度和计算效率。 (4)针对当前支持向量机(Support Vector Machine,SVM)方法在垃圾邮件检测应用中面临的算法复杂性和系统开销占用过大两个关键问题,提出了基于序列最小最优化(Sequential Minimal Optimization, SMO)的在线式SVM增量学习方法改进,同时设计了一种基于风险检测的监督训练模型,使分类器自身参数能够自适应调整,并且根据代价规则实现了代价敏感的SVM检测过滤学习机制。这些综合改进方法,使得SVM在保持其分类精确度的同时,提高了其在大规模垃圾邮件检测实际应用中的效率。 上述工作所提出的方法在TREC2007、SEWM2008和CEAS2008等标准垃圾邮件数据集上进行了有效验证,并实际参与国内外垃圾邮件过滤测评,与目前的主流垃圾邮件过滤器进行了比较。实验和测评结果表明,本文提出的各种方法的改进和创新,能较有效地解决目前垃圾邮件检测所遇到的信息伪装和实际应用的效率问题。
【学位授予单位】:华南理工大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP393.098

【相似文献】
中国期刊全文数据库 前10条
1 陈俊;刘遵雄;;基于非负矩阵分解特征提取的垃圾邮件过滤[J];华东交通大学学报;2010年06期
2 李兆翠;刘培玉;周洪利;;基于贝叶斯方法的客户端邮件过滤器的设计与实现[J];信息技术与信息化;2007年03期
3 卢扬竹;张新有;祁玉;;邮件过滤中特征选择算法的研究及改进[J];计算机应用;2009年10期
4 妥晓娜;吴承勇;;基于逻辑斯蒂方程的垃圾邮件过滤特征方法的研究[J];内蒙古大学学报(自然科学版);2010年04期
5 陈超兰;张自力;;电子邮件分类中的特征选择[J];计算机科学;2006年02期
6 YATE;;怎样防范垃圾邮件[J];电脑校园;2001年09期
7 张岩;坐看云起时 CHIP每月评话[J];新电脑;2002年04期
8 沈建苗;多管齐下治“垃圾”[J];微电脑世界;2003年20期
9 ;如何终结垃圾邮件[J];每周电脑报;2003年16期
10 晓齐;启明星辰推出 天澄防垃圾邮件系统[J];信息网络安全;2004年08期
中国重要会议论文全文数据库 前10条
1 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
2 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 王强;曾向阳;王曙光;李娜;;主元分析在水下目标特征选择中的应用[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
4 高砚军;徐华平;;基于窗口自适应灰度共生矩阵的SAR图像分类[A];第六届全国信息获取与处理学术会议论文集(1)[C];2008年
5 李晓丽;王彤;杜振龙;;基于粗糙集理论的流数据最优特征选择[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
6 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 李爱新;孙铁;郭炎峰;;基于人工神经网络的脑电信号模式分类[A];自动化技术与冶金流程节能减排——全国冶金自动化信息网2008年会论文集[C];2008年
8 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 周志红;周新聪;严新平;袁成清;;磨粒特征参数的评价与优化方法研究[A];2006全国摩擦学学术会议论文集(一)[C];2006年
10 李占潮;陈超;周喜斌;邹小勇;;基于遗传算法和支持向量机预测蛋白质结构类[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
中国重要报纸全文数据库 前10条
1 记者 李梅影;电子邮件立法对抗垃圾邮件泛滥[N];国际金融报;2004年
2 ;6个僵尸网络发出85%垃圾邮件[N];人民邮电;2008年
3 本报记者 余世琳;任金强:治理垃圾邮件要立法与自律并行[N];通信信息报;2003年
4 IT Boy;拿什么拯救你我们的电子邮件[N];中国电脑教育报;2004年
5 《周刊》记者 张旭东;中国反垃圾邮件要立法[N];中国计算机报;2004年
6 策划 孙定 林江艳 执笔 王翌;邮件灾祸[N];计算机世界;2004年
7 孟广业;从源头遏制垃圾邮件传播[N];人民邮电;2004年
8 朱杰;当垃圾邮件穿上“图片”马甲[N];中国计算机报;2007年
9 陈翔;垃圾邮件7月忙换招[N];中国计算机报;2007年
10 ;把握特征阻断垃圾邮件[N];中国计算机报;2007年
中国博士学位论文全文数据库 前10条
1 陈彬;垃圾邮件的特征选择及检测方法研究[D];华南理工大学;2010年
2 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
3 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
4 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
5 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
6 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
7 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
8 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
9 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
10 杨水山;冷轧带钢表面缺陷机器视觉自动检测技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 杨霞;基于SVM和D-S理论的垃圾邮件过滤研究[D];江苏大学;2008年
2 卢扬竹;基于内容的垃圾邮件过滤技术研究[D];西南交通大学;2009年
3 杨慧娟;基于语义体与模糊聚类的中文垃圾邮件过滤方法研究[D];兰州理工大学;2011年
4 郭学敏;基于语义的广告图像垃圾邮件过滤技术研究[D];燕山大学;2010年
5 毛岩;基于行为识别的垃圾邮件过滤技术的研究[D];大庆石油学院;2010年
6 孙吉谭;基于内容的垃圾邮件意图分析方法研究[D];吉林大学;2011年
7 张青;中文垃圾邮件过滤技术研究[D];武汉理工大学;2011年
8 宋文;图像垃圾邮件过滤技术的研究[D];淮北师范大学;2011年
9 杨兴华;基于多模态特征的垃圾邮件过滤技术研究[D];西安电子科技大学;2011年
10 赵海涛;基于模糊支持向量机的垃圾邮件过滤技术研究[D];重庆师范大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026