基于网格和密度的数据流聚类研究
【摘要】:当前,由于网络入侵检测、实时监控系统以及web上用户的点击流数据等等动态的应用环境下不断地形成时序的、海量的、迅速变化的以及潜在无穷的数据流,对于数据流的挖掘研究已经变得非常重要并且富有实用价值。聚类分析作为数据挖掘领域当中一个非常重要的问题,目前已经被广泛地进行了研究。但是数据流的模型并不等同于传统的数据集,这个时候新的要求以及挑战就随之而产生了。
通过对传统的聚类方法研究,发现存在的数据流聚类算法如CluStream是基于k-means算法的。这些聚类算法对于找到任何形状的聚类是不合适的,并且不能处理异常点。进一步而言,它们需要k的值以及用户特定的时间窗口。而基于网格与密度的聚类方法拥有非常多可以应用到数据流处理的相关特点,比较容易实现数据流的聚类相关处理。因而,在对基于网格与密度的传统聚类算法进行研究以及改进的基础上,从聚类的过程中所需要处理的数据集的动态特性出发,对基于网格与密度的数据流聚类方法进行了相关研究并提出GDCLUS,一种用基于密度的方法来进行数据流的聚类。这种算法运用在线组件将每一个输入数据记录映射到一个网格中,而离线组件主要采用最小生成树的思想来进行网格的聚类。这种算法采用了一种密度衰减的技术来获取数据流的动态变化,通过发现衰减因子,数据密度以及聚类结构之间复杂的关系,算法能够有效地实时产生并且调整聚类。进一步地,将改进的金字塔框架运用到数据流在线组件数据筛选,这种技术,在没有降低聚类质量的前提下,使得高速率的数据流聚类更加可行。实验结果表明,算法有优秀的质量和效率,能够发现任意形状的聚类,并且能够准确识别实时数据流的进化特征。
最后,对于实际的数据流相关应用领域,对于算法的相关性能进行了测试,并在用于网络入侵检测的KDDCup99数据集上进行了相关实验,验证了算法的可行性。
|
|
|
|
1 |
赵以强;张龙波;;数据流管理系统研究现状分析[J];科技信息;2010年28期 |
2 |
王金栋;张磊;丁秋林;黄添强;;一种支持分布式数据流处理的双层重叠网络模型[J];应用科学学报;2006年04期 |
3 |
安红,孟建;基于数据流处理的雷达对抗仿真框架研究[J];电子对抗技术;2004年06期 |
4 |
谢应科,张涛,韩承德;实时SAR成像系统中矩阵转置的设计和实现[J];计算机研究与发展;2003年01期 |
5 |
杜威,邹先霞;基于数据流的滑动窗口机制的研究[J];计算机工程与设计;2005年11期 |
6 |
李浪;李仁发;;基于数据流异常挖掘的入侵检测系统设计[J];科学技术与工程;2008年13期 |
7 |
羌晨晨;;数据流关键技术研究概论[J];装备制造技术;2009年11期 |
8 |
魏定国;吴时霖;;数据流复杂查询处理的研究[J];计算机科学;2004年02期 |
9 |
安红;;基于数据流处理的雷达对抗仿真系统[J];现代雷达;2006年05期 |
10 |
孟军;张航黎;张建英;郭禾;;分布式数据流的渐增式聚集维护算法[J];微电子学与计算机;2006年10期 |
11 |
蒋建军;王以群;;农村社会保障体系数据流关联规则挖掘[J];计算机工程;2009年17期 |
12 |
陈磊松;;数据流处理系统的负载控制策略研究[J];漳州师范学院学报(自然科学版);2009年03期 |
13 |
闵思鹤,王甲池,江太辉;DS/CDMA扩频通信接收机数据流处理方案[J];通信技术;2003年06期 |
14 |
王金栋;周良;张磊;丁秋林;;基于分枝路径分析的连续查询降载算法[J];应用科学学报;2007年01期 |
15 |
王爽;杨广明;王国仁;;分布式数据流系统通信有效性研究综述[J];微型机与应用;2007年S1期 |
16 |
李岩;王惠文;叶明;;数据流分析与技术研究[J];计算机工程与应用;2008年15期 |
17 |
胡彧;王顺平;;事务型滑动窗口下的数据流频繁模式挖掘[J];计算机工程与应用;2010年22期 |
18 |
张龙波,李战怀,闫剑锋;一种面向数据流处理的直方图增量维护算法[J];计算机工程;2005年14期 |
19 |
严馨,周丽华,陈克平,徐广义;一种改进的带障碍的基于密度和网格的聚类算法[J];计算机应用;2005年08期 |
20 |
安红;王春丽;杨莉;;数字仿真技术在电子战装备性能评估中的应用[J];中国电子科学研究院学报;2006年04期 |
|