收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于支持向量机的网络数据特征选择技术研究

代琨  
【摘要】:近年来,网络数据识别已成为一个重要研究课题,广泛应用于入侵检测、文档分类、社会网络分析等领域。特征选择是构造网络数据识别系统的核心和关键技术,其目的是在保持或提高学习算法性能的基础上,剔除不相关特征。现有面向网络数据的特征选择算法通常的做法是在已知的特征集合上,从中选择一个子集使评价标准最优,其应用前提是需要一个原始特征集合。例如Moore给出了一个包含248种网络流测度的特征集合。这种做法存在以下问题:一方面,基于网络流测度的特征选择算法只能用于实现对网络数据的粗分类,不支持精细分类,即不能进一步区分同一类中的不同网络数据;另一方面,随着网络技术的发展,网络中存在大量格式未知的数据。这种情况下,很难获得准确的原始特征集合,并且即使能够构建准确的原始特征集合,该特征集合也无法刻画网络中日益多样化的未知协议。因此,迫切需要自主学习能力强的特征选择算法。针对上述问题,本文以支持向量机分类理论为基本工具,着眼于特征选择过程的自主学习能力和特征集合的识别能力,重点研究面向网络数据的自动特征选择算法的理论及其在网络数据自动识别方法中的应用,主要工作和创新点如下:1.面向线性可分、格式已知、有类别标记的网络数据,提出一种基于支持向量机的适用于多类分类问题的有监督自动特征选择算法,该算法解决了现有算法自主学习能力不足的问题;同时还能用于实现对网络数据的精细分类。该算法以网络数据的原始内容为输入,结合1-范数惩罚和2-范数惩罚,能够自动地选择出对分类有重要贡献的特征子集。针对目标函数中损失函数和1-范数惩罚项这两项不可导,利用ADMM(Alternating Direction Method of Multipliers)理论推导了该算法的迭代过程,并得出了参数的自适应调整、选择的特征个数、需要的训练样本数以及测试误差等理论结果。在仿真数据集、3种实际网络数据集和3种常用的公开数据集上的5折交叉验证实验表明,利用该算法选择的特征能够得到较高的识别率。2.面向线性可分、格式已知、类别标记较少的网络数据,提出一种基于支持向量机的半监督自动特征选择算法,克服了现有半监督特征选择算法在进行特征选择之前需要维护候选特征集合的不足。该算法采用裁剪的对称损失函数,通过求解一个混合整数规划问题,能够自动地选择区分能力强的特征子集。利用ADMM推导了该算法的迭代过程,并得出了算法的收敛性、计算复杂度和参数的自适应调整等理论结果。在仿真数据集、3种实际网络数据集和6种常用的公开半监督数据集上的5折交叉验证实验表明,该算法是一种有效的特征子集选择方法,利用该算法选择的特征能够得到较高的识别率。此外,该算法还适用于格式未知的网络数据,这种情况下该算法退化为无监督模式。分别在仿真数据集、3种实际网络数据集和6种常用的公开无监督数据集上进行5折交叉验证实验,测试结果验证了该算法进行特征选择的有效性。3.面向线性不可分的网络数据,分别提出了基于支持向量机的有监督自动特征选择算法和无监督自动特征选择算法,所提算法利用核函数的思想,通过非线性映射函数将线性不可分的网络数据映射到高维空间中,实现了有效的特征选择,同时具有较强的自主学习能力。为了在高维空间中进行特征选择,需要以显示形式考虑映射空间,针对该问题,本文利用泛函拟合的方法求解出给定核函数所对应的非线性映射函数。在仿真数据集、实际网络数据集和常用的公开数据集上的5折交叉验证实验表明,所提算法选择的特征子集具有较强的区分能力,但是时间复杂度较高。4.利用本文提出的特征选择算法,设计并实现了一种基于支持向量机的网络数据自动识别方案。该方案能够自动地从大量网络数据中选择重要特征,进而自动地分离标准协议数据和未知格式协议数据,然后分别针对分离后的标准协议数据和未知格式协议数据进行精细分类,还可以对未知格式协议数据的字段划分起到初步的指导作用。分别利用仿真数据集、实际的网络数据集和常用的公开数据集对本方案的性能进行了测试,测试结果验证了该方案的有效性和可靠性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 吉小军,李世中,李霆;相关分析在特征选择中的应用[J];测试技术学报;2001年01期
2 贾沛;桑农;唐红卫;;一种改进的类别依赖型特征选择技术[J];计算机与数子工程;2003年06期
3 靖红芳;王斌;杨雅辉;徐燕;;基于类别分布的特征选择框架[J];计算机研究与发展;2009年09期
4 吴洪丽;朱颢东;周瑞琼;;使用特征分辨率和差别对象对集的特征选择[J];计算机工程与应用;2010年16期
5 杨艺;韩德强;韩崇昭;;基于排序融合的特征选择[J];控制与决策;2011年03期
6 李云;;稳定的特征选择研究[J];微型机与应用;2012年15期
7 钱学双;多重筛选逐步回归特征选择法及其应用[J];信息与控制;1986年05期
8 宣国荣;柴佩琪;;基于巴氏距离的特征选择[J];模式识别与人工智能;1996年04期
9 范劲松,方廷健;特征选择和提取要素的分析及其评价[J];计算机工程与应用;2001年13期
10 王新峰;邱静;刘冠军;;基于特征相关性和冗余性分析的机械故障特征选择研究[J];中国机械工程;2006年04期
11 张葛祥;金炜东;胡来招;;满意特征选择及其应用[J];控制理论与应用;2006年01期
12 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
13 蒋盛益;王连喜;;基于特征相关性的特征选择[J];计算机工程与应用;2010年20期
14 周瑞琼;朱颢东;吴洪丽;;基于两种特征贡献度的特征选择[J];河南科技大学学报(自然科学版);2010年05期
15 张禹;刘云东;;基于相容粒的特征选择[J];宿州学院学报;2011年02期
16 孙建文;刘三(女牙);杨宗凯;王佩;;采用集成特征选择的网络书写纹识别研究[J];小型微型计算机系统;2012年05期
17 潘湑;顾宏斌;赵芷晴;;术语定义抽取的特征选择框架[J];南京航空航天大学学报;2012年03期
18 魏小敏;;特征选择在蛋白质能量热点预测中的应用[J];电脑知识与技术;2013年04期
19 付涛;;基于特征选择的多示例学习算法研究[J];科技通报;2013年08期
20 孔英会;张少明;;ReliefF-SVM RFE组合式特征选择人脸识别[J];计算机工程与应用;2013年11期
中国重要会议论文全文数据库 前10条
1 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 李长升;卢汉清;;排序学习模型中的特征选择[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
3 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 倪友平;王思臣;马桂珍;陈曾平;;分支界定算法在低分辨雷达飞机架次判别中的应用[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
5 李泽辉;聂生东;陈兆学;;应用多类SVM分割MR脑图像特征选择与优化的实验研究[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
6 蒙新泛;王厚峰;;主客观识别中的上下文因素的研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 万京;王建东;;一种基于新的差异性度量的ReliefF方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
8 范丽;许洁萍;;基于GMM的音乐信号音色模型研究[A];第四届和谐人机环境联合学术会议论文集[C];2008年
9 陈友;戴磊;程学旗;;基于MRMHC-C4.5的IP流分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 申昇;杨宏晖;袁帅;;用于水声目标识别的互信息无监督特征选择[A];第三届上海——西安声学学会学术会议论文集[C];2013年
中国博士学位论文全文数据库 前10条
1 李静;高维数据交互特征选择和分类研究[D];燕山大学;2015年
2 刘风;基于磁共振成像的多变量模式分析方法学与应用研究[D];电子科技大学;2014年
3 王石平;粗糙拟阵及其在高维数据降维中的应用研究[D];电子科技大学;2014年
4 代琨;基于支持向量机的网络数据特征选择技术研究[D];解放军信息工程大学;2013年
5 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
6 张明锦;基于特征选择的多变量数据分析方法及其在谱学研究中的应用[D];华东理工大学;2011年
7 高青斌;蛋白质亚细胞定位预测相关问题研究[D];国防科学技术大学;2006年
8 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
9 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
10 王锋;基于粒化机理的粗糙特征选择高效算法研究[D];山西大学;2013年
中国硕士学位论文全文数据库 前10条
1 周瑞;基于支持向量机特征选择的移动通信网络问题分析[D];华南理工大学;2015年
2 张金蕾;蛋白质SUMO化修饰位点预测的数据挖掘技术研究[D];西北农林科技大学;2015年
3 陈云风;基于聚类集成技术的高铁信号故障诊断研究[D];西南交通大学;2015年
4 张斌斌;网络股评的倾向性分析[D];中央民族大学;2015年
5 季金胜;高分辨率遥感影像典型地物目标的特征选择及其稳定性研究[D];上海交通大学;2015年
6 袁玉录;基于数据分类的网络通信行为建模方法研究[D];电子科技大学;2015年
7 王虎;基于试验设计的白酒谱图特征选择及支持向量机参数优化研究[D];南京财经大学;2015年
8 王维智;基于特征提取和特征选择的级联深度学习模型研究[D];哈尔滨工业大学;2015年
9 皮阳;基于声音的生物种群识别[D];电子科技大学;2015年
10 刘树龙;特征选择在软件缺陷预测中的应用技术研究[D];南京大学;2015年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978