数据流中基于区间划分的高维聚类算法研究
【摘要】:
随着数据规模的不断增大以及数据维数的不断增长,传统的聚类算法已经无法获得有意义的聚类结果。针对高维数据流的聚类问题,本文将重点放在聚类过程中存储空间的有效利用、聚类结果的更新以及聚类算法对数据的适用性上,并提出两种聚类算法:基于最优区间划分的动态聚类算法和基于空间划分的信息熵聚类算法。
本文首先定义了基于内存的数据集划分方法,这种区间划分方法使得划分后的区间大小与存储单元大小匹配,避免了存储单元内部闲置带来的资源浪费问题。在此基础之上,提出两种区间划分方式:将最优区间划分为高密网格和将数据空间划分为单位空间。
其次,设计了一种基于最优区间划分的动态聚类算法DOIC。该算法通过基于内存的数据集划分和最优区间划分得到高密网格,使数据集的划分更贴近数据的实际分布特征;通过HDU树的创建和合并,以解决数据的聚类及更新问题;同时,为了消除历史数据对聚类结果的影响,利用权值以实现在聚类过程中对历史数据的逐步废弃。该算法的数据空间伸缩性和聚类效果较以往算法都有所提高。
最后,提出了一种数据流中基于空间划分的信息熵聚类算法IEC。IEC算法利用信息熵指导聚类过程,为了减少聚类过程中的计算量,将数据集划分为单位空间,然后通过单位空间的信息熵及各单位空间之间的信息熵指导完成聚类过程。
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.131
|
|
|
|
1 |
高新波,裴继红,谢维信;模糊c-均值聚类算法中加权指数m的研究[J];电子学报;2000年04期 |
2 |
刘静,钟伟才,刘芳,焦李成;免疫进化聚类算法[J];电子学报;2001年S1期 |
3 |
姜园,张朝阳,仇佩亮,周东方;用于数据挖掘的聚类算法[J];电子与信息学报;2005年04期 |
4 |
岳士弘,王正友;二分网格聚类方法及有效性[J];计算机研究与发展;2005年09期 |
5 |
周晓云;孙志挥;张柏礼;杨宜东;;高维数据流子空间聚类发现及维护算法[J];计算机研究与发展;2006年05期 |
6 |
孙玉芬;卢炎生;;流数据挖掘综述[J];计算机科学;2007年01期 |
7 |
行小帅,潘进,焦李成;基于免疫规划的K-means聚类算法[J];计算机学报;2003年05期 |
8 |
金阳;左万利;;一种基于动态近邻选择模型的聚类算法[J];计算机学报;2007年05期 |
9 |
颜晓龙;沈鸿;;一种适用于高维数据流的子空间聚类方法[J];计算机应用;2007年07期 |
10 |
晁永胜;郑秋梅;;软件安全建模与检测[J];计算机仿真;2007年10期 |
|
|
|
|
|
1 |
许俊刚,柯有安;自组织神经网络雷达目标识别的研究[J];北京理工大学学报;1992年03期 |
2 |
李碧,雍正正;一种改进的基于遗传算法的聚类分析方法[J];电路与系统学报;2002年03期 |
3 |
刘健庄;基于二维直方图的图象模糊聚类分割方法[J];电子学报;1992年09期 |
4 |
宋爱国,陆佶人;基于进化规划的Kohonen网络用于被动声呐目标聚类研究[J];电子学报;1998年07期 |
5 |
高新波,裴继红,谢维信;模糊c-均值聚类算法中加权指数m的研究[J];电子学报;2000年04期 |
6 |
王磊,潘进,焦李成;免疫算法[J];电子学报;2000年07期 |
7 |
刘静,钟伟才,刘芳,焦李成;免疫进化聚类算法[J];电子学报;2001年S1期 |
8 |
张艳宁,赵荣椿,梁怡;一种有效的大规模数据的分类方法[J];电子学报;2002年10期 |
9 |
刘健庄,谢维信,黄建军,李文化;聚类分析的遗传算法方法[J];电子学报;1995年11期 |
10 |
高新波,裴继红,谢维信;基于统计检验指导的聚类分析方法[J];电子科学学刊;2000年01期 |
|