收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

数据流聚类分析算法

曹锋  
【摘要】: 近年来,许多应用中的数据是以流的形式产生的,例如网络流,传感器数据,以及网页点击流等。分析和挖掘这类数据日益成为一个热点问题。作为一种基础的数据挖掘手段,聚类分析在数据流环境下得到了学术界和工业界的广泛关注。与传统数据库不同,数据流具有如下特点:(1)数据总量的无限性;(2)数据到达的快速性;(3)数据到达次序的无约束性;(4)除非可以保存,每个元素均只能被处理一次。 数据流的上述特点对数据流上的聚类挖掘提出了如下要求:首先,算法必须能够进行实时在线挖掘,快速处理每一个元组,并实时输出挖掘处理结果。其次,相对于无限规模的数据流内存通常是有限的,算法的空间复杂度要低,往往需要在数据量的对数范围内。再次,由于算法实时在线挖掘以及对空间复杂度的限制,算法往往只能得到近似解,且需要具有一定的精确度保证。最后,算法要具有较强的适应性,包括对数据流不断进化的底层模型的适应性,处理离群点的能力,以及挖掘任意形状簇的能力等。 学术界已经对数据流上的聚类分析问题进行了不少研究工作,但仍存在许多问题尚待研究和解决。本文研究了滑动窗口内的数据流聚类分析问题,数据流中具有任意形状簇的挖掘问题,利用图形处理器加速数据流聚类问题以及分布式数据流的数据聚类问题,旨在为现有的数据流系统提供更为多样的聚类分析功能。本文的主要贡献有如下四个方面: 1.本文提出了一种新算法CluWin来解决滑动窗口内数据流聚类分析问题。我们设计了一种新的概要结构—聚类特征指数直方图—来保持滑动窗口中簇的统计信息。CluWin算法仪需要维护O(k/∈log(∈[N/k]))个时间聚类特征结构,就能够估算长度为N的滑动窗口中所有记录的聚类结果,且窗口最大相对差不超过∈。此外,它还被扩展用于解决N-n窗口(滑动窗口扩展模型)数据聚类问题。 2.本文提出了一种新算法DenStream用于挖掘进化数据流中具有任意形状的簇。我们引入一种“密”微簇称为核心微簇(core-micro-cluster)用于描述数据流中任意形状的簇,并提出潜在核心微簇(potential core-microcluster)和离群微簇(outlier micro-cluster)结构分别用于维护并区分数据流中潜在的簇和离群点。DenStream基于这些概念包含了一种新颖的淘汰策略,该策略可利用次线性空间的内存维护并保证各微簇权值的精度。 3.本文利用性能强大、日趋廉价且在数据流领域尚未引起足够重视的图形处理器(GPU)处理数据流聚类挖掘问题。我们提出一类基于GPU的快速聚类方法,包括基于k-means的基本聚类方法,基于GPU的数据流聚类以及数据流簇进化分析方法。这些方法的共同特点就是充分利用GPU强大的处理能力和流水线特性。与以往具有独立框架的数据流聚类算法不同,基于GPU的聚类算法具有同一框架和多种聚类分析功能,为数据流聚类分析提供了统一平台。 4.本文提出了一个分布式聚类处理框架CluDistream。该框架可高效地实时处理分布式数据流中海量数据,有噪声、有损或不完整数据记录,以及有交叠的数据集。在CluDistream基于期望最大化(Expectation Maximization)的算法中,每个数据记录可以以不同的隶属度属于不同的簇。这种软聚类方式能较好地反映簇的交叠性。对有噪声、损坏的或不完整的数据记录,算法可通过最大化数据簇的似然度来学习数据流的底层分布。此外,CluDistream算法中测试后聚类的策略可有效地减少算法的平均处理代价,这对分布式数据流的在线实时聚类挖掘非常有效。 总之,本文研究了数据流聚类分析的四个基本问题并分别提出了新的解决方案。滑动窗口是处理数据流的基本模型之一,如何在滑动窗口内对数据流进行聚类分析是一个基本问题;具有任意形状簇相对于球形簇是更为一般的数据簇模型,如何挖掘任意形状的簇也是一个基本问题;如何提高数据流聚类算法的处理速度是一个基本问题,这是由数据流聚类算法实时在线挖掘的特点所决定的;分布式数据流的数据聚类问题,其基础性在于现实应用中数据流往往是在分布式环境中产生的。本文算法是对现有数据流上的聚类分析技术的有益补充和改进。理论分析和实验结果表明本文算法能够高效地解决相应问题,与现有数据流聚类方法相比,本文算法在存储空间开销、挖掘处理速度以及结果准确性上具有优势。


知网文化
【相似文献】
中国期刊全文数据库 前17条
1 周华平;陈顺生;;基于动态可调衰减滑动窗口的变速数据流聚类算法[J];计算机应用与软件;2015年11期
2 寇香霞;任永功;宋奎勇;;一种基于滑动窗口的数据流频繁项集挖掘算法[J];计算机应用与软件;2013年01期
3 宋奎勇;任永功;寇香霞;;均衡时空挖掘数据流中频繁项集[J];计算机科学;2011年12期
4 胡彧;闫巧梅;;基于滑动窗口的流数据聚类算法研究[J];计算机工程与设计;2008年21期
5 连世伟;李宏伟;;面向事件的气象数据流滑动窗口查询机制研究[J];测绘与空间地理信息;2019年06期
6 敖富江;杜静;颜跃进;黄柯棣;;在线挖掘数据流滑动窗口中频繁闭项集[J];系统工程与电子技术;2009年05期
7 钟颖莉;李金宝;王伟平;艾春宇;;数据流上的复合滑动窗口聚集算法[J];计算机工程与应用;2006年14期
8 胡彧;闫巧梅;;滑动窗口模型下的优化数据流聚类算法[J];计算机应用;2008年06期
9 钟颖莉;复合滑动窗口连接算法[J];哈尔滨商业大学学报(自然科学版);2004年03期
10 许颖梅;;滑动窗口内动态数据流聚类算法研究[J];陕西理工学院学报(自然科学版);2014年01期
11 胡春光;高燕;李颖;;一种扩展滑动窗口算法[J];微电子学与计算机;2007年08期
12 陈小东;孙力娟;韩崇;郭剑;;基于模糊聚类的数据流概念漂移检测算法[J];计算机科学;2016年04期
13 陈波;毛剑琳;乔冠华;戴宁;;改进的基于统计学的滑动窗口无参数的累积和算法[J];计算机应用;2013年01期
14 许国忠;;数据流滑动窗口降载技术[J];科技广场;2009年03期
15 马瑞民;吴亚娟;;基于窗口与运算的数据流降载方法[J];东北林业大学学报;2009年10期
16 陈磊松;林国平;;数据流窗口查询语义的局限性及改进方法[J];漳州师范学院学报(自然科学版);2008年03期
17 汪成亮;陆志坚;庞栩;;一种数据流趋势分析方法的研究与应用[J];计算机系统应用;2010年01期
中国重要会议论文全文数据库 前20条
1 张龙波;李战怀;余敏;王勇;蒋芸;;面向数据流滑动窗口的随机抽样算法研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
2 王伟平;李建中;张冬冬;郭龙江;;数据流上基于时间滑动窗口的连接算法研究[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
3 孙婷;赵哲;陈立军;张旭亮;;数据流滑动窗口上线性回归参数的递推式算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
4 闫朝升;李建中;李金宝;;数据流上滑动窗口技术的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 杨兴华;于亚新;于戈;欧征宇;武珊珊;;一种数据流滑动窗口上的索引连接策略[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
6 郭兵洁;张天成;李景银;于戈;;基于时标的滑动窗口模型在数据流查询中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 沙瀛;谭建龙;;一种采用拟合曲线计算滑动窗口下数据流的最大值/最小值的方法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
8 周锐;肖川;王国仁;韩东红;霍欢;;数据流滑动窗口连接上的卸载技术的研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
9 曾勋;卢艳民;陈红;;基于滑动窗口的数据流压缩技术及聚类处理方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 李康宁;樊小泊;陈红;;一种数据流滑动窗口范围连接上基于局部特征的查询索引[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
11 杨胜梅;王协康;李志;胡超;;基于深度学习和移动滑窗的降雨模拟研究[A];中国水利学会2020学术年会论文集第一分册[C];2020年
12 杨胜梅;王协康;李志;胡超;;基于深度学习和移动滑窗的降雨模拟研究[A];中国水利学会2020学术年会论文集第二分册[C];2020年
13 杨宜东;孙志挥;周晓云;;滑动窗口中的变化检测[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
14 苗高杉;李红燕;;基于模式特征保持的数据流降载方法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
15 黄国言;王立波;任家东;;一种基于滑动窗口的数据流频繁闭项集挖掘算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
16 赵哲;孙婷;陈立军;崔斌;;一种数据流上的快速分段算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
17 张蒨;李翠平;陈红;;一种有效的基于滑动窗口的K-skyband算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
18 王新攀;靳洋;牛道恒;陈灵奎;王彦兵;王俊;;基于滑动窗口的大数据线性回归分析方法[A];2019航空装备服务保障与维修技术论坛暨中国航空工业技术装备工程协会年会论文集[C];2019年
19 秦首科;常建龙;谷姗姗;周傲英;;数据流上的综合性突变检测算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
20 罗秀;王大玲;冯时;于戈;;一种面向周期性概念漂移的数据流分类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国博士学位论文全文数据库 前20条
1 曹锋;数据流聚类分析算法[D];复旦大学;2006年
2 孙焕良;基于空间划分的优化聚类算法及相关技术研究[D];东北大学;2005年
3 林玲;面向概念漂移的数据流统计抽样方法研究[D];南京大学;2020年
4 周勇;基于并行计算的数据流处理方法研究[D];大连理工大学;2013年
5 常建龙;数据流聚类及电信数据流管理[D];复旦大学;2008年
6 毛伊敏;数据流频繁模式挖掘关键算法及其应用研究[D];中南大学;2011年
7 周黔;高性能数据流模式发现算法及其应用研究[D];浙江大学;2008年
8 张晨;数据流聚类分析与异常检测算法[D];复旦大学;2009年
9 秦首科;数据流上的异常检测[D];复旦大学;2006年
10 孔英会;数据流技术及其在电力信息处理中的应用研究[D];华北电力大学(河北);2009年
11 李艳红;面向符号数据流的演化聚类分析[D];山西大学;2015年
12 刘新春;大规模实时数据流连接关键技术的研究[D];中国科学技术大学;2015年
13 袁志坚;数据流突发检测若干关键技术研究[D];国防科学技术大学;2008年
14 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
15 吴珊珊;数据流频繁项挖掘及相关性分析算法的研究[D];浙江大学;2017年
16 邹先霞;事务数据流处理的若干关键技术问题研究[D];中南大学;2012年
17 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
18 金澈清;数据流上若干查询处理算法的研究[D];复旦大学;2005年
19 姚远;海量动态数据流分类方法研究[D];大连理工大学;2013年
20 李桂玲;时间序列的分割及不一致发现研究[D];华中科技大学;2012年
中国硕士学位论文全文数据库 前20条
1 蔡春丽;数据流挖掘中聚类算法的研究与实现[D];哈尔滨工程大学;2007年
2 李芬田;基于滑动窗口的数据流频繁项集挖掘算法研究[D];长春工业大学;2018年
3 裴文柱;数据流最大频繁项集挖掘算法的研究[D];东北大学;2009年
4 张小彬;数据流中频繁项集挖掘算法及其应用研究[D];五邑大学;2009年
5 王培义;在线挖掘数据流闭合频繁项集算法的研究[D];哈尔滨工程大学;2012年
6 史金成;基于相关性的数据流聚类及其应用研究[D];合肥工业大学;2007年
7 范玉玲;基于可变滑动窗口的数据流闭合频繁模式挖掘研究[D];江苏科技大学;2011年
8 李晓卿;数据流中闭频繁项集挖掘算法的研究[D];东北大学;2009年
9 李俊;基于滑动窗口的数据流频繁闭合项集挖掘研究[D];暨南大学;2008年
10 刘洁;数据流滑动窗口频繁模式挖掘算法研究[D];中南大学;2011年
11 郑学双;数据流中频繁项集挖掘研究[D];北京交通大学;2007年
12 李雪兰;基于数据流的频繁项集挖掘算法研究[D];辽宁师范大学;2012年
13 常龙;数据流频繁模式挖掘算法的研究与实现[D];吉林大学;2013年
14 赵学良;基于滑动窗口模型的数据流离群点检测研究[D];重庆大学;2012年
15 施鸿喜;基于密度单元覆盖的聚类数据流算法研究[D];郑州大学;2007年
16 童子奇;一种实时的半结构化数据流频繁模式挖掘算法[D];北京工业大学;2017年
17 史晨超;基于滑动窗口的网上银行数据流频繁模式研究[D];复旦大学;2012年
18 李秀荣;数据流频繁模式和分类挖掘算法研究[D];浙江工商大学;2007年
19 安静;数据流挖掘技术及应用研究[D];华北电力大学(河北);2008年
20 张亮;基于MFI-TransSW算法的股票依赖性研究[D];西安建筑科技大学;2009年
中国重要报纸全文数据库 前20条
1 本报记者 赵广立;期待“数据流”在中国再逢春[N];中国科学报;2017年
2 本报记者 钱蓓;以“数据流”代替“文件流” 让网上纠纷在网上化解[N];文汇报;2018年
3 本报记者 卢子月;WIPS捕捉空中数据流[N];通信产业报;2010年
4 记者 梁蓬飞 特约记者 张能华;“数据流”直达联合指挥“客户端”[N];解放军报;2016年
5 高波 特约记者 海洋;“数据流”助力战场精准保障[N];解放军报;2020年
6 本报记者 徐勇;打造海量数据流的立交桥[N];人民邮电;2001年
7 ;超越数据流极限[N];网络世界;2005年
8 郭川 姚春鸽 (本报记者 郭川);IP时代 传送流和数据流谁是主流?[N];人民邮电;2009年
9 记者 刘建伟 特约记者 石榴;中军帐奔涌诸军兵种数据流[N];解放军报;2016年
10 本报记者 伊佳;“数据流”令巨人低头[N];通信产业报;2010年
11 本报记者 武晓莉;给冰冷的算法注入温暖[N];中国消费者报;2021年
12 本报评论员 悦连城;算法推荐,管好才能用好[N];河南日报;2022年
13 本报记者 苏晓梅 岳付玉;算法推荐能否告别野蛮生长?[N];天津日报;2022年
14 记者 彭晓玲;大数据和算法的未来 “道德自动化”还是“哲人工程师”[N];第一财经日报;2022年
15 中青报·中青网记者 王品芝 实习生 潘泽强;算法新规施行 53.8%受访者表示会选择关闭算法推荐[N];中国青年报;2022年
16 中青报·中青网见习记者 罗希;中青校媒联合上交大媒体与传播学院发起《提高“算法素养”倡议》[N];中国青年报;2021年
17 王轶辰;算法也要有“说法”[N];经济日报;2022年
18 记者 王思北 阳娜 周琳 颜之宏;大数据“杀熟”不能再“杀”了,算法推荐不能乱“推”了[N];新华每日电讯;2022年
19 本报记者 祖爽;剑指行业乱象 算法推荐进入严监管时代[N];中国商报;2022年
20 本报记者 宋婧;新规将算法装入监管“笼子”[N];中国电子报;2022年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978