收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

数据流聚类分析算法

曹锋  
【摘要】: 近年来,许多应用中的数据是以流的形式产生的,例如网络流,传感器数据,以及网页点击流等。分析和挖掘这类数据日益成为一个热点问题。作为一种基础的数据挖掘手段,聚类分析在数据流环境下得到了学术界和工业界的广泛关注。与传统数据库不同,数据流具有如下特点:(1)数据总量的无限性;(2)数据到达的快速性;(3)数据到达次序的无约束性;(4)除非可以保存,每个元素均只能被处理一次。 数据流的上述特点对数据流上的聚类挖掘提出了如下要求:首先,算法必须能够进行实时在线挖掘,快速处理每一个元组,并实时输出挖掘处理结果。其次,相对于无限规模的数据流内存通常是有限的,算法的空间复杂度要低,往往需要在数据量的对数范围内。再次,由于算法实时在线挖掘以及对空间复杂度的限制,算法往往只能得到近似解,且需要具有一定的精确度保证。最后,算法要具有较强的适应性,包括对数据流不断进化的底层模型的适应性,处理离群点的能力,以及挖掘任意形状簇的能力等。 学术界已经对数据流上的聚类分析问题进行了不少研究工作,但仍存在许多问题尚待研究和解决。本文研究了滑动窗口内的数据流聚类分析问题,数据流中具有任意形状簇的挖掘问题,利用图形处理器加速数据流聚类问题以及分布式数据流的数据聚类问题,旨在为现有的数据流系统提供更为多样的聚类分析功能。本文的主要贡献有如下四个方面: 1.本文提出了一种新算法CluWin来解决滑动窗口内数据流聚类分析问题。我们设计了一种新的概要结构—聚类特征指数直方图—来保持滑动窗口中簇的统计信息。CluWin算法仪需要维护O(k/∈log(∈[N/k]))个时间聚类特征结构,就能够估算长度为N的滑动窗口中所有记录的聚类结果,且窗口最大相对差不超过∈。此外,它还被扩展用于解决N-n窗口(滑动窗口扩展模型)数据聚类问题。 2.本文提出了一种新算法DenStream用于挖掘进化数据流中具有任意形状的簇。我们引入一种“密”微簇称为核心微簇(core-micro-cluster)用于描述数据流中任意形状的簇,并提出潜在核心微簇(potential core-microcluster)和离群微簇(outlier micro-cluster)结构分别用于维护并区分数据流中潜在的簇和离群点。DenStream基于这些概念包含了一种新颖的淘汰策略,该策略可利用次线性空间的内存维护并保证各微簇权值的精度。 3.本文利用性能强大、日趋廉价且在数据流领域尚未引起足够重视的图形处理器(GPU)处理数据流聚类挖掘问题。我们提出一类基于GPU的快速聚类方法,包括基于k-means的基本聚类方法,基于GPU的数据流聚类以及数据流簇进化分析方法。这些方法的共同特点就是充分利用GPU强大的处理能力和流水线特性。与以往具有独立框架的数据流聚类算法不同,基于GPU的聚类算法具有同一框架和多种聚类分析功能,为数据流聚类分析提供了统一平台。 4.本文提出了一个分布式聚类处理框架CluDistream。该框架可高效地实时处理分布式数据流中海量数据,有噪声、有损或不完整数据记录,以及有交叠的数据集。在CluDistream基于期望最大化(Expectation Maximization)的算法中,每个数据记录可以以不同的隶属度属于不同的簇。这种软聚类方式能较好地反映簇的交叠性。对有噪声、损坏的或不完整的数据记录,算法可通过最大化数据簇的似然度来学习数据流的底层分布。此外,CluDistream算法中测试后聚类的策略可有效地减少算法的平均处理代价,这对分布式数据流的在线实时聚类挖掘非常有效。 总之,本文研究了数据流聚类分析的四个基本问题并分别提出了新的解决方案。滑动窗口是处理数据流的基本模型之一,如何在滑动窗口内对数据流进行聚类分析是一个基本问题;具有任意形状簇相对于球形簇是更为一般的数据簇模型,如何挖掘任意形状的簇也是一个基本问题;如何提高数据流聚类算法的处理速度是一个基本问题,这是由数据流聚类算法实时在线挖掘的特点所决定的;分布式数据流的数据聚类问题,其基础性在于现实应用中数据流往往是在分布式环境中产生的。本文算法是对现有数据流上的聚类分析技术的有益补充和改进。理论分析和实验结果表明本文算法能够高效地解决相应问题,与现有数据流聚类方法相比,本文算法在存储空间开销、挖掘处理速度以及结果准确性上具有优势。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李斌;数据流处理自动化和重新设计[J];管理科学文摘;1997年05期
2 赵以强;张龙波;;数据流管理系统研究现状分析[J];科技信息;2010年28期
3 王金栋;张磊;丁秋林;黄添强;;一种支持分布式数据流处理的双层重叠网络模型[J];应用科学学报;2006年04期
4 安红,孟建;基于数据流处理的雷达对抗仿真框架研究[J];电子对抗技术;2004年06期
5 谢应科,张涛,韩承德;实时SAR成像系统中矩阵转置的设计和实现[J];计算机研究与发展;2003年01期
6 杜威,邹先霞;基于数据流的滑动窗口机制的研究[J];计算机工程与设计;2005年11期
7 李浪;李仁发;;基于数据流异常挖掘的入侵检测系统设计[J];科学技术与工程;2008年13期
8 羌晨晨;;数据流关键技术研究概论[J];装备制造技术;2009年11期
9 孟军;张航黎;张建英;郭禾;;分布式数据流的渐增式聚集维护算法[J];微电子学与计算机;2006年10期
10 陈磊松;;数据流处理系统的负载控制策略研究[J];漳州师范学院学报(自然科学版);2009年03期
11 魏定国;吴时霖;;数据流复杂查询处理的研究[J];计算机科学;2004年02期
12 安红;;基于数据流处理的雷达对抗仿真系统[J];现代雷达;2006年05期
13 蒋建军;王以群;;农村社会保障体系数据流关联规则挖掘[J];计算机工程;2009年17期
14 王金栋;周良;张磊;丁秋林;;基于分枝路径分析的连续查询降载算法[J];应用科学学报;2007年01期
15 胡彧;王顺平;;事务型滑动窗口下的数据流频繁模式挖掘[J];计算机工程与应用;2010年22期
16 闵思鹤,王甲池,江太辉;DS/CDMA扩频通信接收机数据流处理方案[J];通信技术;2003年06期
17 王爽;杨广明;王国仁;;分布式数据流系统通信有效性研究综述[J];微型机与应用;2007年S1期
18 李岩;王惠文;叶明;;数据流分析与技术研究[J];计算机工程与应用;2008年15期
19 张龙波,李战怀,闫剑锋;一种面向数据流处理的直方图增量维护算法[J];计算机工程;2005年14期
20 安红;王春丽;杨莉;;数字仿真技术在电子战装备性能评估中的应用[J];中国电子科学研究院学报;2006年04期
中国重要会议论文全文数据库 前10条
1 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 魏永超;陈立军;;数据流上复杂事件处理系统Eagle的设计与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 蔡致远;熊方;钱卫宁;周傲英;;核合并分析及其在数据流密度估计上的应用[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
4 尹婷;李红燕;;窗口模型下数据流查询流水化执行的研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 宋宝燕;陆岩;张俊宁;;数据流上的一种适应性查询优化及调度策略[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 吕雁飞;武珊珊;谷峪;许嘉;于戈;;一种数据流上统计性查询QoS的保证方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 周锐;肖川;王国仁;韩东红;霍欢;;数据流滑动窗口连接上的卸载技术的研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
8 霍欢;王国仁;陈庆奎;彭敦陆;;基于Hole-Filler模型的XML数据流上的SLCA算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
9 武珊珊;宋宝燕;袁锋;于亚新;于戈;;数据流模型研究[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 闫朝升;李建中;李金宝;;数据流上滑动窗口技术的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
2 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
3 郭立超;数据流挖掘若干技术研究及其在电信行业的应用[D];浙江大学;2011年
4 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
5 李军;基于用户行为挖掘的数据流管理技术研究[D];北京邮电大学;2012年
6 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
7 李培培;数据流中概念漂移检测与分类方法研究[D];合肥工业大学;2012年
8 周勇;基于并行计算的数据流处理方法研究[D];大连理工大学;2013年
9 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
10 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 何登成;数据流上复杂序查询的研究与实现[D];浙江大学;2010年
2 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
3 刘娜;离散型数据流在线关联分析[D];大连理工大学;2012年
4 孔颖;基于粒度的数据流不确定性信息处理[D];重庆交通大学;2013年
5 李有生;一种改进的数据流处理算法的研究与实现[D];吉林大学;2010年
6 何江燕;基于数据流的聚类分析算法研究[D];兰州交通大学;2010年
7 李燕;面向含噪数据流的概念漂移集成分类研究[D];合肥工业大学;2011年
8 罗秀;数据流在线分类算法的研究与实现[D];东北大学;2009年
9 由欣;基于有向图构造的数据流预测算法的研究[D];哈尔滨工程大学;2011年
10 张育培;非平稳数据流的概念漂移检测及其分类[D];郑州大学;2013年
中国重要报纸全文数据库 前9条
1 计算机世界实验室 吴挺;Intel的专业“核动力”[N];计算机世界;2007年
2 北京 冬梅;P4时代真的来了吗[N];中国电脑教育报;2001年
3 ;立体防护“中枢神经系统”[N];网络世界;2003年
4 甘久斌;如何有效管理宽带用户[N];通信产业报;2002年
5 ;NetScreen-IDP 500 高端入侵检测与防护设备[N];计算机世界;2003年
6 李勇;降低投资70%[N];中国计算机报;2003年
7 ;在移动互联网里推广IPv6[N];人民邮电;2002年
8 ;港湾网络多业务万兆城域网解决方案[N];人民邮电;2003年
9 记者 郭姜宁;企业级电子商务资金流网络管理系统问世[N];科技日报;2001年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978