收藏本站
收藏 | 论文排版

基于滑动窗口的密度聚类算法研究

龚云  
【摘要】:近年来,由于生产生活水平的不断提高和计算机在各行各业的应用技术的高速发展,人们获取数据的能力已经大大的提高,获取数据的渠道也急剧增加。随着信息管理与信息处理系统的应用和发展,现实生活中的许多数据呈现出“流”的特点。处理数据传统方法静态存储结构形式早已不再适用。数据流作为一类重要的数据来源,已受到越来越多的研究人员的关注。基于数据流模型的聚类算法的研究,已成为重要的前沿课题。与传统数据库不同的是,数据流具有很多特点:数据总量呈现无限性、数据快速到达、数据到达速率具有不可控性和不可预测性、数据到达无序性。鉴于数据流的诸多特点,若要对数据流中的数据进行挖掘分析得出可理解、可利用的结果,迫切需要开发出高效、精确的适用于数据流的聚类算法。 学术界已经就数据流聚类方面做了大量的研究,提出了许多关于数据流聚类的优秀算法。数据流聚类的主要方法有基于划分、基于层次、基于密度、基于网格和基于模型的方法。基于划分方法的代表算法是k均值和k中心点方法。这类算法通过划分数据点到某个最近的中心点,不断的计算更新簇内距离以达到形成稳定的聚簇的状态。这种聚类方法适合于应用在球形簇的场合,对于中小型规模的数据库很适用。为了发现具有复杂形状的簇和对超大型数据集进行聚类,需要进一步扩展基于划分的方法。基于层次方法主要有自底向上的凝聚法和自顶向下的分裂法。为了节省计算开销,层次方法严格规定一旦聚类过程中的一个步骤完成后就不能撤销。这也是层次聚类的缺陷所在。为了解决基于距离聚类仅限于产生球形簇的结果的问题和过滤孤立点,人们提出了基于密度的聚类方法。只要邻域中的对象或数据点的数目超过某给定的阈值,就继续聚类直到邻域内无符合条件的数据点。基于网格的聚类算法把空间量化成一个多维的网格结构,所有的数据点都投影在这个网格结构中。基于网格聚类的优点是不需要考虑具体的数据点,只需要考虑某个网格中的点的数目或密度,提高了聚类速度。它的缺点是若数据点的维度增多则算法时间复杂度和空间复杂度急剧增大。基于模型的数据流聚类方法为每个簇假定一个模型,并寻找数据对给定模型的最佳拟合。 本文综合研究了数据流聚类的问题和经典的数据流聚类算法,做了以下一些工作: (1)借鉴CluStream算法的双层结构的优点,提出了基于滑动窗口的双层数据流密度聚类算法(DStream算法)。 (2)提出了基于滑动窗口与时间衰减相结合的改进点 (3)实验验证了本文算法的有效性 从所用的KDDCUP99数据集实验中可以看出,DStream算法能够在时间和空间代价较小的情况下有效的提高聚类结果的精确度。本文将DStream算法和CluStream算法的实验运行结果分别进行比较。DStream算法得出的聚类结果均优于CluStream算法。本文中衡量聚类结果的精确性指标是比较SSQ值的大小,对依次执行数量不同的样本所花费的时间和运行不同维数的样本所需的时间进行比较。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 闫莺,金澈清,曹锋,汪恒杰,周傲英;多数据流上共享窗口连接查询的降载策略[J];计算机研究与发展;2004年10期
2 王伟平;李建中;张冬冬;郭龙江;;基于滑动窗口的数据流连续J-A查询的处理方法[J];软件学报;2006年04期
3 赵峰;李庆华;;基于可信推断的流数据序列模式分析算法[J];小型微型计算机系统;2006年07期
4 曲吉林;寇纪淞;李敏强;;基于滑动窗口的数据流反向查询方法[J];计算机工程与应用;2006年30期
5 刘必雄;;基于滑动窗口查询的直方图改进[J];计算机时代;2006年09期
6 林锦贤;林钦仙;;数据流上的轮廓查询算法[J];福州大学学报(自然科学版);2007年04期
7 武珊珊;谷峪;吕雁飞;于戈;;一种数据流上截止期敏感的滑动窗口处理策略[J];计算机科学;2007年07期
8 刘文;罗守山;陈萍;;基于滑动窗口和交换加密函数解决SMP的新方案[J];计算机工程;2007年22期
9 李俊奎;王元珍;;可重写循环滑动窗口:面向高效的在线数据流处理[J];计算机科学;2007年12期
10 荣文亮;杨燕;;基于数据流频繁闭合模式的挖掘[J];计算机应用;2008年06期
11 夏英;刘婉蓉;;基于滑动窗口的关联规则增量式更新算法[J];计算机应用;2008年12期
12 宋宝燕;张衡;于洋;奚丽娜;王大玲;;基于滑动窗口的支持泛在应用的流聚类挖掘算法[J];小型微型计算机系统;2008年12期
13 张震;汪斌强;陈庶樵;周粳迪;;基于滑动窗口的资源可控流量测量算法[J];计算机工程;2010年03期
14 姚文集;高明霞;毛国君;李广奎;;基于滑动窗口的XML数据流聚类算法[J];计算机工程;2010年13期
15 李眩;;基于网络流量的实时入侵检测[J];信息安全与通信保密;2010年07期
16 云端漫步;;购物小助手,轻松帮你货比货[J];电脑爱好者;2010年22期
17 琚春华;许翀寰;;基于有序复合策略的数据流最大频繁项集挖掘[J];情报学报;2010年05期
18 付强;车文刚;;基于滑动窗口的奇异点数据挖掘算法研究[J];江西科学;2011年02期
19 抚远大将军;;自由修改,Win7窗口预览功能更好用[J];电脑迷;2011年16期
20 李龙镇,任正权;高速网络下链路层的流量控制分析[J];延边大学学报(自然科学版);2004年02期
中国重要会议论文全文数据库 前10条
1 汪罕;赵加奎;陈立军;;流和滑动窗口模型下的直径计算(英文)[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 杨宜东;孙志挥;周晓云;;滑动窗口中的变化检测[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 张龙波;李战怀;余敏;王勇;蒋芸;;面向数据流滑动窗口的随机抽样算法研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
4 沙瀛;谭建龙;;一种采用拟合曲线计算滑动窗口下数据流的最大值/最小值的方法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
5 杨兴华;于亚新;于戈;欧征宇;武珊珊;;一种数据流滑动窗口上的索引连接策略[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
6 王伟平;李建中;张冬冬;郭龙江;;数据流上基于时间滑动窗口的连接算法研究[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
7 王栩;李建中;王伟平;;基于滑动窗口的数据流压缩技术及连续查询处理方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
8 郭兵洁;张天成;李景银;于戈;;基于时标的滑动窗口模型在数据流查询中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 刘鹤丹;信俊昌;王国仁;;无线传感器网络中基于比例映射过滤的滑动窗口轮廓算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
10 闫朝升;李建中;李金宝;;数据流上滑动窗口技术的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 魏建生;高性能重复数据检测与删除技术研究[D];华中科技大学;2012年
2 杨蓓;数据流top-K频繁模式挖掘算法研究[D];北京交通大学;2009年
3 邹先霞;事务数据流处理的若干关键技术问题研究[D];中南大学;2012年
4 孙焕良;基于空间划分的优化聚类算法及相关技术研究[D];东北大学;2005年
5 汤克明;不确定数据流中频繁数据挖掘研究[D];南京航空航天大学;2012年
6 曾剑平;基于模糊集的自适应伪装入侵检测算法及其在ASP服务安全中的应用研究[D];厦门大学;2006年
7 石荣;数字视频运动分析、对象分割与压缩传输应用技术研究[D];电子科技大学;2004年
8 秦首科;数据流上的异常检测[D];复旦大学;2006年
9 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
10 刘学军;数据流聚集查询和频繁模式挖掘的研究[D];东南大学;2006年
中国硕士学位论文全文数据库 前10条
1 蔡春丽;数据流挖掘中聚类算法的研究与实现[D];哈尔滨工程大学;2007年
2 施鸿喜;基于密度单元覆盖的聚类数据流算法研究[D];郑州大学;2007年
3 姜军晓;一种流数据频繁模式挖掘算法的研究与实现[D];大连理工大学;2007年
4 吕晓;一种改进的数据流突变检测算法的研究[D];哈尔滨工程大学;2009年
5 郑琼冬;数据流查询处理算法的研究[D];暨南大学;2008年
6 李俊;基于滑动窗口的数据流频繁闭合项集挖掘研究[D];暨南大学;2008年
7 贺春亮;基于数据流滑动窗口的降载技术研究[D];燕山大学;2009年
8 闫朝升;数据流联机分析处理技术的研究[D];黑龙江大学;2004年
9 刘方;基带自适应编码调制系统的设计与FPGA实现[D];华中科技大学;2008年
10 王尤慧;Online-HHT方法在时间序列数据流预测中的应用研究[D];大连理工大学;2009年
中国重要报纸全文数据库 前2条
1 李晓东;TCP整型,QoS的阳光大道?[N];计算机世界;2004年
2 中国传媒大学计算机学院 朱立谷;重复数据删除技术解析[N];中国计算机报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978