基于贝叶斯分类的垃圾邮件过滤技术研究
【摘要】:随着互联网技术的飞速发展,电子邮件以方便、快捷、环保等优点成为人们日常生活工作中不可或缺的一部分。但与此同时,垃圾邮件的出现对用户造成了严重的影响,给社会带来了极大的财产损失和安全威胁,因此研究垃圾邮件过滤技术具有重要意义。本文在基于目前现有的理论和研究基础之上,对垃圾邮件过滤方法进行了系统的介绍,针对当前朴素贝叶斯算法过滤垃圾邮件时尚且存在的不足进行了一定的改进。主要研究内容如下:(1)深入研究反垃圾邮件相关技术,包括邮件的预处理、文本表示模型、特征提取等等。着重研究了朴素贝叶斯分类算法的原理及其来源,并分析它在文本分类方面的优缺点。(2)分析随机森林算法的原理以及在特征选择方面的优势,提出使用随机森林结合朴素贝叶斯的分类算法。针对垃圾邮件过滤系统中普遍存在的维数灾难的问题,通过随机森林特征选择过滤掉邮件集中基尼不纯度为0的特征词,由朴素贝叶斯算法计算出特征选择后的测试邮件的后验概率,得出测试邮件所属类别。(3)提出基于树结构的朴素贝叶斯分类算法。针对朴素贝叶斯算法在分类前期的训练阶段大量消耗系统和网络资源,严重影响分类效率的问题,提出使用树结构代替算法中原本使用的数组来维护训练样本中特征词出现的次数;针对朴素贝叶斯算法在邮件样本属性个数较多时,分类效果较差的问题,对特征词条件概率进行开方处理。(4)通过设计的邮件过滤系统对过滤算法进行分类性能测试。实验结果表明,结合了随机森林的朴素贝叶斯算法较原有算法在分类性能上效果更好;基于树结构的朴素贝叶斯算法较原有算法在邮件样本训练过程中耗时明显减少,随着样本的不断增加,训练耗时也只是缓慢增长,通过选取合适的开方次数z值,来降低垃圾邮件的误判率,使得改进后的算法在垃圾邮件过滤方面具有更好的效果。