收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

聚类算法的维度分析

张强  
【摘要】: 本文主要研究不同维度条件下聚类分析的特点、需求以及相应的对策和解决方法。针对低维度、高维度全空间和高维度子空间聚类这三个问题分别提出了新的算法。 在低维度聚类方面,提出了GDMS聚类算法。算法的主要贡献是:1、提出了探针窗口过滤法来检测数据的分布特性,通过选取不同的滤波函数得到不同密度、不同属性的聚类簇,通过选择探针的不同运动方式,实现精度和效率的统一。2、提出了一个新的数学形态学算子来提取聚类簇,算子的精度优于以往使用的开、闭算子。3、将尺度空间理论和形态学相结合,聚类结果是一个多尺度的、层次化的结构。4、算法支持含障碍物的聚类。算法的特点是:计算复杂度与数据量成线性关系;能够发现任意形状的聚类;对噪声不敏感;算法对网格尺寸有一定的适应性;能够区分不同密度的聚类簇;能够区分特定属性聚类簇;层次化的聚类结果有利于用户的理解、解释。 在高维度全空间聚类方面,提出了MDCLUS、IMDCLUS和PMDCLUS算法以提高聚类速度。1、采用蒙特卡络法获取核心对象,降低了聚类的运算量。定量地给出了抽样率的最小估计值,以避免小聚类簇的丢失和大聚类簇的断裂。提出了标签散列法合并聚类簇,合并的计算量与数据量成线性关系。2、实现了增量聚类。3、实现了分布式并行化处理。算法的特点是:能够发现任意形状的聚类簇;对噪声不敏感;与DBSCAN算法相比速度明显提高;运算量与维度成线性关系;能够在局域网中的多台计算机上以分布式方式同时聚类;支持增量聚类,速度相对于重新聚类有大幅度提升。 在高维度子空间聚类方面,提出了活跃空间和活跃网格的算法。主要贡献有:1、证明了聚类簇区域的密度、连通性、覆盖度都具有向下封闭性。2、提出了自上而下的搜索方法。3、提出了基于活跃轴数量的噪声过滤法。4、在网格大小固定的基础上扩展为网格大小自适应。5、实现了分布式的并行化聚类。6、提出了以层次化的树形结构组织聚类子空间和聚类簇的方法。算法的主要特点有:既能发现全空间聚类簇也能发现子空间聚类簇;算法的计算量与数据对象个数、数据空间维度数以及聚类簇维度数分别近似成线性关系;算法的抗噪声能力强;能够在多台计算机上分布式地处理聚类;聚类结果有利于用户的理解和解释;算法既能发现相斥型聚类簇,也能发现相容型聚类簇。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 牟廉明,黄国兴;一种基于自适应膨胀因子的聚类新方法[J];计算机工程;2003年09期
2 周兵,沈钧毅,彭勤科;集群环境下的并行聚类算法[J];计算机工程;2004年04期
3 张锡琴;;多数据流的增量聚类实现与应用[J];计算机工程;2009年14期
4 王春才;杨华民;张彩虹;郭威;韩贵东;;一种适用于数据仓库环境的增量聚类方法[J];河北大学学报(自然科学版);2010年02期
5 黄永平,邹力鹍;数据仓库中基于密度的批量增量聚类算法[J];计算机工程与应用;2004年29期
6 徐新华;谢永红;;增量聚类综述及增量DBSCAN聚类算法研究[J];北华航天工业学院学报;2006年02期
7 郑洪英;倪霖;肖迪;;大规模数据集聚类中的数据分区及应用研究[J];计算机应用研究;2007年02期
8 夏胜平;吕小军;刘建军;袁振涛;郁文贤;;基于集群的并行分布式聚类及其应用(英文)[J];郑州大学学报(理学版);2006年04期
9 孟海东;王淑玲;郝永宽;;动态增量聚类的设计与实现[J];计算机工程与应用;2009年24期
10 郝晓青;;一种基于启发式的密度和网格的增量聚类算法[J];机电信息;2009年36期
11 丁一;付弦;;基于核心树的增量聚类算法研究[J];湖北师范学院学报(自然科学版);2011年02期
12 吴琪,左万利;一种基于距离的增量聚类算法[J];湖南工程学院学报(自然科学版);2005年03期
13 吴琪;高滢;王晓涛;左万利;;一种基于距离的增量聚类算法[J];解放军理工大学学报(自然科学版);2005年06期
14 滕明贵;熊范纶;吴正龙;;一种对二维空间对象进行聚类的算法[J];模式识别与人工智能;2005年03期
15 吴楠;;通过增量聚类预处理分区的一种序列模式挖掘方法[J];宿州学院学报;2008年02期
16 易宝林;伍仪强;丰大洋;张小莉;;基于DBSCAN的批量更新聚类算法[J];计算机工程;2009年02期
17 陈敏;高学东;栾绍峻;郗玉平;;基于密度的并行聚类算法[J];计算机工程;2010年11期
18 孟海东;杨彦侃;;并行聚类算法的设计与研究[J];计算机与现代化;2010年08期
19 李桃迎;陈燕;秦胜君;李楠;;增量聚类算法综述[J];科学技术与工程;2010年35期
20 王丹;张兆心;宋颖慧;;基于高权重词集的增量聚类算法研究[J];微计算机信息;2011年02期
中国重要会议论文全文数据库 前6条
1 龚海军;何婷婷;瞿国忠;张勇;胡文敏;;热点事件发现[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 谢静;苏一丹;;基于人工免疫的增量聚类算法[A];广西计算机学会2009年年会论文集[C];2009年
3 彭楠赟;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 高晶;李建中;张兆功;张艳秋;;一种基于网格和密度的数据流高效聚类算法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
6 梁红;李伟生;;XML文档的并行聚类算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 张强;聚类算法的维度分析[D];天津大学;2007年
2 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
3 谢宏威;印刷电路板焊点智能检测算法的研究[D];华南理工大学;2011年
4 杨燕;基于计算智能的聚类组合算法研究[D];西南交通大学;2006年
5 吕宗磊;对聚类及聚类评价若干问题的研究[D];南京航空航天大学;2009年
6 王华秋;并行数据挖掘理论研究与应用[D];重庆大学;2006年
7 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年
8 王勇献;蛋白质二级结构预测的模型与方法研究[D];国防科学技术大学;2004年
9 强彦;数据库负载自适应技术研究[D];太原理工大学;2010年
10 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
中国硕士学位论文全文数据库 前10条
1 郗洋;基于云计算的并行聚类算法研究[D];南京邮电大学;2011年
2 付腾达;基于GPU并行聚类的加密分组密码算法的研究及实现[D];南京理工大学;2013年
3 童忆莹;基于增量聚类和ReliefF的特征选择方法[D];西南大学;2011年
4 董银松;基于监测信号加权特征的批量钻削工步质量增量聚类研究[D];湘潭大学;2011年
5 阳建平;聚类算法在入侵检测中的应用[D];电子科技大学;2009年
6 刘强;基于Web使用挖掘的个性化推荐系统研究与设计[D];燕山大学;2006年
7 张园园;基于聚类的入侵检测算法研究与实现[D];吉林大学;2009年
8 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
9 张锡琴;时态数据流的增量聚类算法研究及其应用[D];浙江工业大学;2009年
10 杜秋媛;基于Linux集群的并行聚类融合的研究与实现[D];吉林大学;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978