垃圾邮件的特征选择及检测方法研究
【摘要】:
伴随着互联网的快速发展,目前中国网民数量已达3.38亿,居世界首位。与此同时,日益泛滥的垃圾邮件问题也引起了人们的普遍关注,因为它不仅给人们的工作和生活带来了很大的困扰,也给社会经济带来了巨大的损失。针对垃圾邮件的各种检测与过滤方法应运而生并且得到迅速的发展。然而,越来越常用的、不断更新的垃圾邮件伪装以及攻击手段却正严重影响着这些这类检测方法的有效性和实用性。
垃圾邮件经常借助一些替换、插入、编码等手段,在不影响阅读人对信息的理解的同时隐藏自身的垃圾特性,干扰过滤器对其特征的挖掘与提取,从而达到规避过滤器检测的目的,致使一些被认为行之有效的检测方法在实际应用中准确度不高。同时,垃圾邮件属于动态变化的流信息,而现在大多数针对该类信息的特征提取和检测分类方法,都将其视为一般的文本分类,无法体现基于时间流的数据特征随时间变化而发生动态变化的特点。此外,垃圾邮件的检测,是一种大规模的实时数据处理,部分基于机器学习的检测方法由于在模型更新和快速检测上存在性能上的瓶颈,无法很好地投入到实际应用中。
总之,不断发展的垃圾邮件形式和检测技术现状都表明,垃圾信息泛滥问题的解决,必须综合运用多种检测技术并加以完善和创新,充分挖掘网络垃圾信息所具备的有效特征,与时俱进。同时还需要做到检测准确率与检测效率的相平衡,使其符合大规模实际应用的要求。
基于上述事实,本文系统地分析了垃圾邮件的背景、现状以及研究网络垃圾信息检测技术的现实意义,通过跟踪国内外的网络垃圾信息的先进检测技术,较全面地归纳出现有的网络垃圾信息检测技术的发展现状,比较分析了各种技术的优点以及不足,提出了亟待解决的问题。在已有技术成果的基础上,本文从理论和应用两个层面,对垃圾邮件检测的关键技术进行深入的研究和创新,主要完成了以下几项工作:
(1)针对垃圾邮件伪装技术,通过对大规模真实邮件数据的统计和分析,归纳出垃圾邮件报文格式中隐藏的独特行为特征,提出新颖的电子邮件头增强的特征选择方法。在此基础上,将邮件头包含的行为特征和内容特征相结合,并以指纹向量的形式来表示。实验表明,该特征表示方法应用在贝叶斯过滤器中能有效加强过滤器在应对垃圾邮件变种的时的识别能力,提高检测准确率,并且计算简单,适用于大规模应用。
(2)提出了将垃圾邮件信息视为动态的数据流进行处理,综合考虑邮件特征的生命周期和使用频率,设计了一种较新颖的使用统计时序的垃圾邮件过滤特征选择方法,在有效减低特征冗余的同时也较好地反映了垃圾邮件特征随时序变化而产生的动态变化;同时提出了一种基于时序预测模型的过滤器阈值动态调优方法,使其与垃圾邮件数量规模保持关联性,能够自适应不同时间段的垃圾邮件强度。基于时序的垃圾邮件特征选择有利于提高垃圾邮件过滤器对最新内容形式的垃圾邮件的识别能力,降低特征存储空间,提高检测速度。
(3)针对属性相互独立的限制性假设与垃圾邮件的特征不匹配的事实,引入均-1依赖估计(Aggregating One-dependence Estimators,AODE)来对这一特征属性独立的假设进行弱化,通过垃圾邮件特有的结构化特征,构建新的贝叶斯特征属性网,提出了一种结构化的SAODE(Structural-AODE)算法,并通过基于类条件分布的特征选择优化方法以及基于最大最小熵的主动学习策略,保证了算法的计算时间开销和准确度。实验结果表明该方法能进一步提高贝叶斯方法在垃圾邮件检测上的精度和计算效率。
(4)针对当前支持向量机(Support Vector Machine,SVM)方法在垃圾邮件检测应用中面临的算法复杂性和系统开销占用过大两个关键问题,提出了基于序列最小最优化(Sequential Minimal Optimization, SMO)的在线式SVM增量学习方法改进,同时设计了一种基于风险检测的监督训练模型,使分类器自身参数能够自适应调整,并且根据代价规则实现了代价敏感的SVM检测过滤学习机制。这些综合改进方法,使得SVM在保持其分类精确度的同时,提高了其在大规模垃圾邮件检测实际应用中的效率。
上述工作所提出的方法在TREC2007、SEWM2008和CEAS2008等标准垃圾邮件数据集上进行了有效验证,并实际参与国内外垃圾邮件过滤测评,与目前的主流垃圾邮件过滤器进行了比较。实验和测评结果表明,本文提出的各种方法的改进和创新,能较有效地解决目前垃圾邮件检测所遇到的信息伪装和实际应用的效率问题。