收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

数据流聚类算法的研究

安鹏  
【摘要】:传统的数据挖掘算法主要是针对于简单的、结构化的数据,这些数据大都是静态的,但是,当前很多大规模数据都是以数据流的形式存在。这样的数据流具有海量的、不间断到达的、快速变化的特点,使得传统的数据挖掘算法无法适用,算法精度难以得到保证,迫切需要一些新的、基于数据流的挖掘算法。同时,在数据挖掘中,聚类又是很重要的一方面算法,在对数据流进行聚类这一问题上,同样具有非常重要的研究价值。本文研究的正是这样一种数据流聚类的算法。 很多知名学者对已有的传统聚类方法进行了扩展和改进,提出不同的数据流聚类算法,已经获得了较好的聚类效果。但是,由于参数设置不当或传统算法固有的缺陷,诸多算法仍存在着一些不足之处。针对上述问题,本文在传统聚类算法的基础上,利用网格和密度,对其进行了扩展,使之可应用于数据流聚类问题。该方法结合了基于密度和基于网格两种聚类方法的优势,具有聚类速度较快、精度较高等优点。 本文是由D-Stream算法改进得到的,充分发挥其算法优势,并且在其原有算法的基础上,进行了几方面的改进:首先改进了相关参数的设置,使得划分网格疏密程度的参数可以随网格的变化进行动态调整,避免了参数设置需要具有经验知识这一问题。参数设置参考了部分相关文献,借鉴了其思路,并加以修正和优化,使得算法效率得到了保证,同时对于部分复杂的参数设置进行了证明,保证参数的正确性,不会对聚类结果的正确性造成影响。然后,在离线聚类阶段,本文提出了基于并查集和基于广度优先两种算法,在工程实践中具有一定的意义。同时,对原有的D-Stream算法的离线部分也做了一些改进,在聚类阶段也加入了基于并查集和基于广度优先两种算法的相关操作,优化了算法效率。 最后,本文使用了KDD99数据集,对本文提出的算法进行了实验验证。首先是对本算法自身进行实验,通过调节实验相关的参数,使算法获得的较好性能;然后通过实验与D-Stream算法和NDD-Stream算法进行了比较,验证了本算法的正确性和高效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 屠莉;陈崚;邹凌君;;数据流的网格密度聚类算法[J];小型微型计算机系统;2009年07期
2 李娜;邢长征;;时间滑动窗口内基于密度的数据流聚类算法[J];计算机应用;2011年05期
3 戴奇波;倪志伟;王超;姜苗;;基于动态数据流挖掘的案例推理及其应用[J];计算机工程与应用;2011年19期
4 李子文;邢长征;;滑动窗口内基于密度网格的数据流聚类算法[J];计算机应用;2010年04期
5 王海波;王宪鹏;王芳;陈志国;;一种基于网格和最小生成树的数据流聚类算法[J];计算机系统应用;2011年02期
6 于翔;印桂生;;数据流的不规则网格增量聚类算法[J];哈尔滨工程大学学报;2008年08期
7 李桃迎;陈燕;秦胜君;李楠;;增量聚类算法综述[J];科学技术与工程;2010年35期
8 周晓云;张净;孙志挥;;高维Turnstile型数据流聚类算法[J];计算机科学;2006年11期
9 万仁霞;王立新;刘振文;;基于相异度矩阵的混合属性数据流聚类算法[J];计算机工程与应用;2008年25期
10 张天成;岳德君;于戈;林树宽;谷峪;;数据流挖掘研究及其进展[J];小型微型计算机系统;2008年12期
11 陈荣晖;王伦文;;一种新的滑动窗口模型数据流聚类方法[J];小型微型计算机系统;2010年12期
12 胡彧;闫巧梅;;基于滑动窗口的流数据聚类算法研究[J];计算机工程与设计;2008年21期
13 王述云;张成洪;郝秀兰;胡运发;;基于免疫原理的数据流聚类算法[J];模式识别与人工智能;2009年02期
14 康晶;马宏;刘力雄;;基于密度的优化数据流聚类算法[J];计算机工程与设计;2010年22期
15 胡彧;闫巧梅;;滑动窗口模型下的优化数据流聚类算法[J];计算机应用;2008年06期
16 杨春宇;周杰;;一种混合属性数据流聚类算法[J];计算机学报;2007年08期
17 张晓龙;曾伟;;基于衰减窗口与剪枝维度树的实时数据流聚类[J];计算机应用研究;2009年04期
18 廖建平;马文龙;;基于倾斜时间窗口的高效数据流偏向最近聚类分析算法[J];计算机与现代化;2010年05期
19 苏晓珂;兰洋;秦玉明;程耀东;;基于衰减模型的混合属性数据流离群检测[J];计算机科学;2010年05期
20 陈春燕;张伟;;应用摘要层次结构的数据流聚类算法[J];计算机应用与软件;2007年10期
中国重要会议论文全文数据库 前10条
1 李国徽;黄蕾;;数据流环境下的基于加权网格的聚类算法研究[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
2 蔡致远;魏藜;钱卫宁;周傲英;;DEODS:快速准确的数据流密度估计[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 丁健;李建中;李金宝;高宏;;数据流上的并行决策树构成算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 李康宁;樊小泊;陈红;;一种数据流滑动窗口范围连接上基于局部特征的查询索引[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 谭建龙;郭丽;刘萍;沈星星;;建立数据流管理系统GodRiver[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
6 后小亮;刘奇志;高先锋;檀宝权;;大量多态数据流的综合压缩算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
7 李爱平;杨庆民;甘亮;;基于Dwarf的数据流立方体的研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
8 林子雨;林琛;冯少荣;张东站;;MESHJOIN~*:实时数据仓库环境下的数据流更新算法[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
9 赵哲;孙婷;陈立军;崔斌;;一种数据流上的快速分段算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
10 王潇;卢阳;陈立军;;网内查询处理中的一种基于数据流共享的过滤查询算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国博士学位论文全文数据库 前10条
1 陈刚;数据流的无阻塞连接算法研究[D];华中科技大学;2010年
2 蒋纲;数据包在无线网络中调度策略的研究[D];华中科技大学;2004年
3 曹锋;数据流聚类分析算法[D];复旦大学;2006年
4 陈辉;数据流频繁模式挖掘及数据预测算法研究[D];华中科技大学;2008年
5 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
6 孙玉芬;基于网格方法的聚类算法研究[D];华中科技大学;2006年
7 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
8 邓娜;基于最优Hankel范数近似的线性相位IIR滤波器设计及其应用研究[D];东华大学;2008年
9 杨蓓;数据流top-K频繁模式挖掘算法研究[D];北京交通大学;2009年
10 刘青宝;模糊、动态多维数据建模理论与方法研究[D];国防科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 安鹏;数据流聚类算法的研究[D];哈尔滨工业大学;2012年
2 陈毅;基于网格的并行聚类算法及数据流聚类算法研究[D];兰州大学;2010年
3 蔡斌雷;面向数据流的优化聚类算法研究[D];燕山大学;2010年
4 崔静燕;基于不规则网格及子空间降维的聚类算法研究[D];燕山大学;2012年
5 杜安明;模具企业管理模式及管理信息系统设计[D];重庆大学;2004年
6 张庆;一种基于UML状态图的类级测试技术的研究与实现[D];电子科技大学;2005年
7 赵国斌;铁路试点数据中心设计及实现[D];北京交通大学;2007年
8 宫剑飞;客户区域化归属问题的研究[D];哈尔滨工程大学;2009年
9 贺春亮;基于数据流滑动窗口的降载技术研究[D];燕山大学;2009年
10 张华剑;虚拟筛选海量并行任务管理系统中数据流的管理[D];兰州大学;2010年
中国重要报纸全文数据库 前10条
1 本报记者 朱杰;优化数据流构建移动未来网络[N];中国计算机报;2010年
2 谭啸;打通企业数据流[N];计算机世界;2005年
3 深圳市物业发展(集团)股份有限公司 程贵平;以理顺数据流为出发点[N];网络世界;2002年
4 本报记者 卢子月;WIPS捕捉空中数据流[N];通信产业报;2010年
5 李;金山毒霸力推数据流杀毒技术[N];计算机世界;2007年
6 杨春光 张钝;数据流托起信息化训练方舟[N];解放军报;2003年
7 IBM大中华区董事长及首席执行总裁 钱大群;用领导者价值观改善思维[N];中国经营报;2011年
8 记者 杨晓丹通讯员 朱莹;天津石化建起全过程闭环数据流[N];中国石化报;2008年
9 杨正明;网络化管理数据流畅通是关键[N];中国计算机报;2001年
10 特约撰稿人 奇琳;B3G的多天线技术[N];通信产业报;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978