收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

软件漏洞分析中基于密度和网格的不确定数据流聚类算法

赵金天  
【摘要】:信息技术的高速发展极大方便了人们的日常生活,但大量的软件漏洞也随之产生。这些漏洞被恶意利用,造成重要信息的泄露从而达到非法目的。聚类作为一种无监督学习方法能够高效的检测漏洞进而防止重要机密信息的丢失。目前,大型软件的信息流动量巨大,所处理的信息通常是非精确的。所以,通过改进不确定性数据流聚类算法进而将其应用于漏洞检测问题具有重要的现实意义。 首先,现有的不确定演化数据流聚类算法对任意形状的不确定数据流聚类效果不是很理想,对用户输入的阈值过于敏感,并且对于噪声的干扰处理困难。本文提出一种基于密度的不确定演化数据流聚类算法DUGStream,使用基于概率和欧氏距离的相似性度量方法来对概率数据流进行相似性度量,采用概率半径作为自适应动态阈值以降低用户输入对算法的影响,并且周期性的检测微簇权值动态变化以删除真正的噪声点。在人工和真实的数据实验结果显示,DUGStream算法无论在聚类精度和聚类的可伸缩性上均优于Umicro算法。 第二,针对现有基于网格的不确定数据流聚类算法聚类精度不高,对用户输入阈值敏感,本文提出一种基于密度网格的不确定数据流聚类算法UG-Stream。在处理不确定数据流聚类时,数据空间中到达的不确定数据点首先被映射到网格中,通过设定动态的阈值并以此为依据对网格进行分类,设定概率方差对网格内部的数据点分布进行表征,从而选取出网格内部数据点分布均匀的核心稠密网格进行聚类。在人工合成的数据集和真实的数据集进行对比实验,其结果显示UG-Stream算法无论在聚类精度和聚类的速率上均优于UMicro算法。 第三,目前基于网格的不确定数据流聚类算法虽然能够够达到很高的聚类速率,但是对于网格聚类边界处理困难,本文提出一种不确定数据流的网格边界聚类算法UGBStream。在处理不确定数据流网格边界聚类时,通过概率方差对网格内部的数据点分布情况进行描述从而对边界网格进行分类。根据边界网格内部数据点作球型结构,通过球型结构与邻域网格的关系,对网格内部的数据点进行分配。在人工合成的数据集和真实的数据集实验下表明,UGBStream算法无论在聚类精度和聚类的效率上均优于DUCStream算法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 崔斌;卢阳;;基于不确定数据的查询处理综述[J];计算机应用;2008年11期
2 周逊;李建中;石胜飞;;不确定数据上两种查询的分布式聚集算法[J];计算机研究与发展;2010年05期
3 徐雪松;;时间序列不确定数据流中异常数据检测方法[J];电子设计工程;2011年19期
4 徐雪松;李玲娟;郭立玮;;基于优化策略的不确定数据流预测方法[J];计算机工程;2011年21期
5 徐雪松;沈红红;陶帆;胡晓璐;崔伟;;基于小波分析的不确定数据流异常数据检测[J];软件导刊;2011年11期
6 钱江波;王志杰;陈华辉;王海斌;;不确定数据流自适应并行连接算法及应用[J];电信科学;2012年02期
7 向剑平;乔少杰;胡剑;;基于不确定数据理论的道路相关度度量方法[J];计算机工程与设计;2012年06期
8 曹振丽;孙瑞志;李勐;;面向不确定数据的农产品追溯方法[J];农业机械学报;2013年07期
9 蒋涛;高云君;张彬;周傲英;乐光学;;不确定数据查询处理[J];电子学报;2013年05期
10 王爽;杨广明;朱志良;;基于不确定数据的频繁项查询算法[J];东北大学学报(自然科学版);2011年03期
11 王意洁;李小勇;祁亚斐;孙伟东;;不确定数据查询技术研究[J];计算机研究与发展;2012年07期
12 陈爱东;刘国华;肖瑞;万小妹;石丹妮;;均匀分布下不确定数据的关联规则变粒度查询[J];计算机工程与科学;2013年10期
13 胡健;苏书宾;毛伊敏;;高维不确定数据高效聚类算法[J];电脑知识与技术;2014年04期
14 刘卫明;杨健;毛伊敏;;基于约束的不确定数据频繁项集挖掘算法研究[J];计算机应用研究;2012年10期
15 陈爱东;刘国华;费凡;周宇;万小妹;貟慧;;满足均匀分布的不确定数据关联规则挖掘算法[J];计算机研究与发展;2013年S1期
16 张晨;金澈清;周傲英;;一种不确定数据流聚类算法[J];软件学报;2010年09期
17 杨金伟;王丽珍;陈红梅;赵丽红;;基于距离的不确定数据异常点检测研究[J];山东大学学报(工学版);2011年04期
18 杨雷;赵春晖;廖艳苹;杨莘元;;基于多源不确定数据融合的研究[J];弹箭与制导学报;2007年03期
19 赵娟;王明春;李小亮;;基于不确定数据决策树分类算法的软件外包评价模型[J];天津职业技术师范大学学报;2011年03期
20 邓慧挺;毛宇光;;不确定数据的重复记录检测[J];计算机技术与发展;2012年08期
中国重要会议论文全文数据库 前7条
1 高聪;申德荣;于戈;聂铁铮;寇月;;一种基于不确定数据的挖掘频繁集方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 周逊;李建中;石胜飞;;不确定数据上聚集查询的分布式处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
3 王晓伟;黄九鸣;贾焰;;分布式不确定数据上的概率Skyline计算[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
4 艾文凯;张剡;柏文阳;;基于用户偏好的不确定数据阈值轮廓查询算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 陆叶;王丽珍;张晓峰;;从不确定数据集中挖掘频繁Co-location模式[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
6 孙永佼;王国仁;;P2P环境中不确定数据Top-k查询处理算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
7 张潮;李晨;王勇;张阳;;uPOSC4.5:一种针对不确定数据的PU学习决策树算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国博士学位论文全文数据库 前7条
1 汤克明;不确定数据流中频繁数据挖掘研究[D];南京航空航天大学;2012年
2 梁春泉;不确定数据流分类算法研究[D];西北农林科技大学;2014年
3 高明;不确定数据的世系管理和相似性查询[D];复旦大学;2011年
4 董俊;不确定数据中数据挖掘方法的研究[D];燕山大学;2012年
5 孙永佼;P2P环境下排序查询处理和分类技术的研究[D];东北大学;2012年
6 王爽;不确定数据流频繁模式挖掘算法研究[D];东北大学;2013年
7 王晓伟;基于概率数据库的偏好查询研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 李雪;不确定数据聚类研究[D];大连理工大学;2009年
2 周逊;不确定数据聚集查询的分布式处理算法[D];哈尔滨工业大学;2009年
3 朱倩;属性不确定数据关联分类算法研究[D];大连理工大学;2011年
4 刘明建;不确定数据的代价敏感决策树分类器研究[D];西北农林科技大学;2012年
5 邓慧挺;不确定数据的重复检测及清洗研究[D];南京航空航天大学;2012年
6 夏菁;基于可信度计算的不确定数据起源研究[D];南京航空航天大学;2012年
7 宋明;基于密度的不确定数据流聚类算法的研究与实现[D];东北大学;2011年
8 王莹莹;基于密度的不确定数据聚类研究[D];长春工业大学;2013年
9 苏书宾;不确定数据聚类研究[D];江西理工大学;2014年
10 覃香菊;不确定数据上的关联分类器[D];西北农林科技大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978