基于SVM的网络流量特征降维与分类方法研究
【摘要】:网络流量特征的分类能够对相应网络流量实现差别化管理,是后续的网络协议设计、网络运营管理、网络流量调度的基础及依据,并且为网络安全中网络攻击的检测及流量清洗提供手段。本文从支持向量机(Support Vector Machines,SVM)的网络流量特征降维与分类方法入手,主要从以下两个方面进行研究:一是针对网络流量特征维度较高或特征冗余导致分类模型性能下降的问题,将过滤式(Filter)与封装式(Wrapper)特征选择方法相结合,对特征选择的评估判据、搜索策略进行改进;同时,基于特征提取样本空间变换理论,研究了嵌入二次特征选择模块的特征提取模型。二是针对SVM分类模型经验风险和泛化能力的平衡问题,运用非线性SVM核函数变换理论,对SVM核函数参数优化方法、寻优算法的搜索能力与收敛能力的增强方法展开研究。主要研究成果如下:1.在特征选择问题研究中,为了选择能代表原始流量数据分布特性的最优特征子集,并能对其进行准确解释和分析,提出了一个Filter-Wrapper混合特征选择模型。采用Filter式特征选择方法,根据原始特征集中每个特征的权重,将小于设定阈值?的特征删除。在生成的新特征子集上采用Wrapper方式,基于SVM并结合相应搜索策略进行二次特征筛选,选择具有强区分能力的组合特征子集。该模型解决了单纯使用Filter式特征选择引起的组合特征被误删,以及特征评价结果与最终分类算法存在偏差的问题。2.针对SVM易受具有高相似依赖性冗余特征影响的问题,提出了一个嵌入二次特征选择模块的主成分分析特征提取模型。该模型在确定关键特征时,自适应选择二次特征选择模块,检查每个特征的相关性,结合相应搜索策略锁定关键特征,加强了特征的最大关联—最小冗余性。模型通过样本空间变换,能够获取最大化某个方向上的特征子空间,且能减少数据输入宽度,有效降低计算复杂度,缩短训练时间。实验结果表明,该特征提取模型降维效果明显,且在较小的无偏训练样本下可以达到与原始样本数据集一致的分类效果,对于网络流量实时分类具有实际意义。3.为了平衡SVM流量分类模型经验风险和泛化能力,提高优化模型分类与泛化能力,针对参数寻优空间范围不同,分别提出了两个改进的参数优化算法。当搜索空间范相对较小时,提出了改进的网格搜索参数优化算法。该算法能够动态调整二次搜索区域,减少二次网格生成密度,提高算法搜索效率,并在优化参数同时防止过拟合现象产生。当搜索空间范围相对较大且遍历搜索节点较困难时,提出了改进的粒子群参数优化算法。该算法采用非线性惯性权重系数以及异步优化的学习因子,自适应地平衡了算法的全局和局部搜索能力,不需要大范围搜索并能在进化的过程中快速收敛到最优解,增强了算法的收敛能力。实验结果表明,本文提出的流量分类模型参数优化算法能够在有限次计算代价内,从参数空间中找到最优参数组合,有效地提高了SVM的分类与泛化能力,并在六个不同的SVM训练模型中均达到了很好的分类效果。4.针对流量分类降维过程中需要减少二次特征选择环节同时能够对原始关键特征组合分量进行准确解释,以及参数寻优过程中搜索空间范围较大且存在精英个体的情况,本文构建了一个基于特征选择和细菌觅食参数优化算法的SVM流量分类模型。在模型特征选择阶段,利用改进的遗传算法对特征选择进行优化,无需二次特征选择就可以筛选出网络流量关键特征,并对原始关键特征进行确定,准确的解释了组合分量特征,兼顾了数据间的相关性。在模型参数优化阶段,采用了改进的细菌觅食算法进行参数优化。改进的核心算子避免了精英个体的丢失,并能快速地收敛到全局最优解。该算法不需要大范围搜索及逐步调节,不易出现早熟现象。通过实验结果表明,本文提出的网络流量分类模型建模时间显著缩短,且流量分类精度显著提高。与其它典型的有监督分类方法相比,该模型在分类精度和学习机器泛化能力方面都有着明显的优势。