基于聚类算法的异常入侵检测方法的研究
【摘要】:随着信息技术的飞速发展与互联网的进一步普及,网络技术广泛应用于生产生活的各个方面,极大地推动了社会生产力的发展。然而与之相伴的是,各种网络攻击和破坏也与日俱增。因此,网络安全技术显得越来越重要。
入侵检测技术是一种动态的监测、预防或抵御系统入侵行为的安全机制,有效地弥补传统安全防护技术的不足。基于聚类算法的异常入侵检测方法可以在未标记的数据集上训练并建立正常行为模型,然后检测入侵,它不需要任何先验知识,可能检测出新的、未知的入侵。因此它具有相当好的应用前景,目前这一领域的研究已经变得非常活跃。
本文先是对入侵检测技术与聚类分析的概念及相关知识做了系统的介绍,然后阐述了国内外基于聚类算法的异常检测方法研究的现状及发展方向,指出了基于聚类算法的异常检测方法就是一种无监督的异常检测技术,最后针对当前无监督检测技术的不足,提出一种基于密度和万有引力思想的无监督异常检测算法。它能够在未标记的数据上训练并检测入侵,而且能有效的检测出未知入侵。针对网络数据具有混合属性的特点,将数据空间分解为分类属性与数值属性对应的两个子空间,在整个数据空间里,数据之间的距离分解为两个子空间上的距离,并给出了各种距离定义。该算法的主要思想是:对训练集先采用一种高效的密度聚类算法进行聚类,聚类后会得到一定数目的簇,在这个基础上用引力大小作为簇与簇之间的相似性度量,计算出所有簇两两之间的引力大小,得出相似度矩阵,再根据相似度的值选出待合并的两个簇,采用整体差异度作为聚类质量的评价标准,如果两个簇合并后所产生新簇的整体差异度的值小于或等于合并前两个簇中的某一个,则将两个簇合并,并更新相似度矩阵,否则就不合并。再根据正常行为的数量要远大于入侵行为数量的假设,把聚类结果所得的簇标记为正常或入侵,最后用检测算法对测试集数据进行检测。这种基于密度和万有引力思想聚类的无监督异常检测算法由五大模块组成,即由密度聚类算法模块、基于万有引力思想的合并算法模块、噪声处理模块、标记算法模块与检测算法模块组成。其中合并算法模块的目的在于有效地降低误报率,它是整个算法的核心模块。算法分析与实验结果表明,该算法有较高的检测率,能有效地检测出未知攻击行为,特别是能明显地降低检测的误报率。