收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于网格方法的聚类算法研究

孙玉芬  
【摘要】: 随着信息技术在各个领域的普及,各种应用每天产生的数据量呈指数级增长。如何有效处理这些数据,从中提取有用的知识,是迫切需要解决的问题。数据挖掘的任务是从大型数据集中提取知识。聚类分析是数据挖掘中的一项主要技术,它将物理对象或抽象对象的集合分组成为由类似的对象组成的多个簇。 网格方法在空间数据分析、索引,和聚类中都有应用。使用网格方法的数据分析方法将空间划分为由(超)矩形网格单元组成的网格,然后在网格单元上进行各种分析。数据空间可以以多种方式划分成网格,其中以简单的树形网格划分和p×p网格划分用得最多。 通过将同一网格单元内的数据的信息用它们的统计信息替代,网格可以直观地将数据压缩。网格单元的压缩功能与微簇和抗体对数据的压缩有很多相似之处,但是它们也具有很多不同的性质。使用网格单元、微簇,和抗体的聚类算法对压缩单元的生成和管理采用了不同的策略。 利用网格的空间划分特征和网格内信息的可加性,基于网格方法的算法可以以多种方式进行并行化。 现有的基于网格方法的聚类算法都假设落入同一个网格单元的数据点属于同一个簇,这个假设并不总是成立。设计了一个新的基于网格的数据压缩方法,这个压缩方法只有在能确认一组数据都属于同一个簇时,才对这组数据进行压缩。在网格数据结构中,完全位于一个簇内部的网格单元内的数据可以肯定都属于这个簇。基于对空间中网格单元与簇的关系的观察,新的数据压缩方法采用不均匀的网格划分方法,对簇内部的网格单元采用较大的粒度,进行安全的数据压缩。对簇边缘的网格单元采用较小的粒度,提高簇的描述精度。 基于新的数据压缩方法,设计了一个聚类算法SGRIDS。此算法基于网格单元内数据的密度,判断网格单元的位置。算法SGRIDS能通过对数据集的一次扫描,以较高精度快速找到大型空间数据集中的簇。由于网格单元的大小不再影响数据压缩质量,此算法的聚类质量受网格单元粒度影响较小。而通过保存记录簇的形状的边缘点,算法能以较高精度描述簇的形状。SGRIDS的计算复杂度为O ( N ),它对超大型空间数据集具有好的可伸缩性,能发现数据集中任意形状的簇,并且不受数据输入顺序的影响。实验表明,SGRIDS的聚类质量比经典算法WaveCluster好,算法对网格划分参数的敏感度比WaveCluster低。 流数据挖掘是当前数据挖掘领域研究的热点。流数据在线流入的特征对聚类算法提出了多个新的要求,其中最基本的是只能对数据作一次线性扫描。为满足这些要求,流数据聚类算法通常使用概要数据结构对数据进行在线压缩。提出一个使用网格数据结构作为概要数据结构的算法GCHDS处理高维数据流。算法采用一个简单的启发式方法,通过分析数据在每维投影的分布,选择对聚类分析有用的维来降低数据空间的维度。在真实数据集上的实验分析验证了算法的正确度与运行效率。实验表明,GCHDS的聚类性能比VLDB文章中的算法HPStream好。 GSCDS是一个聚类高维数据流的子空间聚类算法。此算法结合由底向上的网格划分方法和自顶向下的网格划分方法,能快速、有效地处理高维数据流。GSCDS使用均匀划分的网格在线压缩数据流数据。在此网格数据结构上,使用自顶向下的网格划分方法将数据中的簇分隔开,并将每个簇与相应的子空间及区域相关联。然后,算法将各子空间中相连的网格单元识别为簇,得到精确的簇的描述。最后,算法检查是否有簇需要被合并,从而消除自顶向下网格划分方法所引入的错误。对算法的复杂度分析以及在多个数据集上所做的性能分析实验都验证了此算法的计算效率和有效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李惠清;;日语假名—汉字的函数特征提取识别技术[J];佛山科学技术学院学报(社会科学版);2011年03期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 吕超;刘君;刘瑜;;基于Delaunay图的非结构变形网格计算方法研究[A];中国航空学会第七届动力年会论文摘要集[C];2010年
2 刘邦弟;;主从网格方法[A];中国工程物理研究院科技年报(1998)[C];1998年
3 许和勇;叶正寅;王刚;史爱明;;用非结构嵌套网格方法计算旋翼前飞流场[A];第十届全国空气弹性学术交流会会议论文集[C];2007年
4 王兴勇;郭军;刘树坤;谢省宗;;Lattice Boltzmann方法的分块-耦合算法[A];计算流体力学研究进展——第十二届全国计算流体力学会议论文集[C];2004年
5 伍贻兆;田书玲;刘学强;夏健;;基于非结构网格的非定常流数值模拟方法研究[A];非定常空气动力学研讨会论文选集[C];2007年
6 潘志远;崔维成;;使用RANS方程及动网格方法模拟圆柱体的涡激振动[A];第七届全国水动力学学术会议暨第十九届全国水动力学研讨会文集(上册)[C];2005年
7 艾辉林;陈艾荣;;基于ALE格式的动网格方法数值模拟桥梁断面气动导数[A];第十三届全国结构风工程学术会议论文集(下册)[C];2007年
8 陈山;杨顶辉;;地震波场数值模拟的WRK方法的稳定性和频散分析[A];中国地球物理·2009[C];2009年
9 詹国强;昂海松;肖天航;;蝴蝶模型的非定常气动特性研究[A];中国力学学会学术大会'2009论文摘要集[C];2009年
10 薛惠洁;柴扉;徐丹亚;侍茂崇;;南海海流数值计算[A];中国海洋学文集——南海海流数值计算及中尺度特征研究[C];2001年
中国博士学位论文全文数据库 前10条
1 孙玉芬;基于网格方法的聚类算法研究[D];华中科技大学;2006年
2 王莉;数据挖掘中聚类方法的研究[D];天津大学;2004年
3 陈黎飞;高维数据的聚类方法研究与应用[D];厦门大学;2008年
4 葛全文;ICF中流体不稳定性的数值模拟研究与Hamilton-Jacobi方程的运动网格方法[D];中国工程物理研究院;2003年
5 张强;聚类算法的维度分析[D];天津大学;2007年
6 胡蓉;WEB日志和子空间聚类挖掘算法研究[D];华中科技大学;2008年
7 牛琨;聚类分析中若干关键技术及其在电信领域的应用研究[D];北京邮电大学;2007年
8 李若;移动网格方法及其应用[D];北京大学;2001年
9 孙志伟;空间数据聚类的研究[D];天津大学;2007年
10 曲琳;分布式智能视觉监控行为分析及语义检索技术研究[D];浙江大学;2008年
中国硕士学位论文全文数据库 前10条
1 马倩;基于模式聚类的理论研究[D];燕山大学;2007年
2 王煜;基于模式相似的子空间聚类算法研究[D];河海大学;2006年
3 闫妍;子空间聚类改进方法研究[D];大连理工大学;2008年
4 罗秋敏;基于模糊神经网络的模糊规则获取方法[D];大连交通大学;2004年
5 吴俊杰;基于密度的子空间聚类算法研究[D];厦门大学;2009年
6 臧良俊;使用长度递减支持度挖掘兴趣频繁模式和子空间[D];辽宁科技大学;2007年
7 高亚鲁;子空间聚类算法的研究及应用[D];江苏大学;2009年
8 邱杨;基于空间约束的半监督子空间聚类算法[D];大连理工大学;2009年
9 甘杨兰;面向高维数据的子空间聚类算法研究[D];合肥工业大学;2007年
10 王永卿;高维海量数据聚类算法研究[D];广西大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978