基于网格方法的数据流聚类算法研究
【摘要】:数据流聚类是从大量的、有噪声的、模糊的、随机的流数据中发现不相连的、具有相似属性的簇,并使簇中数据的相似性尽可能高,不同簇中的数据的相似性尽可能低,它是数据挖掘领域的一个重要研究方向。在现有的数据流聚类算法中,基于网格方法的聚类算法具有较高的数据压缩比和较低的时间复杂度的特点,这使其在数据流聚类中有着较好的表现。但与此同时,网格方法也有其不足,主要是容易丢失簇边缘网格中的数据点,而这将导致网格聚类的正确率降低。另外,针对高维数据空间如何进行有效的聚类也是一个值得关注的问题,在高维数据空间中,数据点之间的距离趋近于相等,这给以数据点之间的距离作为数据相似性评价标准的聚类算法带来了挑战。
为此,本文的主要研究内容和成果如下。
首先,针对网格数据流聚类中簇边缘网格数据点丢失的问题,提出了基于可变密度阈值的网格数据流聚类算法VDTS。在传统的网格数据流聚类算法中,使用均匀划分网格并采用固定的密度阈值,而在VDTS算法中,采用不均匀划分的网格和可变的密度阈值,从而使簇中心部分的网格容易合并,形成较大的网格,簇边缘部分的网格不容易合并,保持较小的网格。VDTS算法既保留了网格数据流聚类算法的高数据压缩比又解决了簇边缘网格数据点丢失的问题。
其次,针对高维数据流聚类困难的问题,提出了高维数据流网格聚类算法HVDTS。在高维数据流的聚类中,通常的方法是对高维空间进行降维,其中一个关键的问题是如何降维,即如何选择那些对聚类影响较大的维并删除那些对聚类的结果影响较小的维。本文提出了一种维选择算法,通过比较数据点在每一维上的投影的平方误差和来判断该维对聚类结果影响的大小。经过维选择算法处理后,数据空间的维数降低到一个可以接受的范围,然后对降维后的数据集进行聚类,最终获得聚类结果。
|
|
|
|
1 |
张强;赵政;;基于概率分布和形态学的快速聚类算法[J];天津大学学报;2006年09期 |
2 |
周炎涛;易兴东;吴正国;;基于网格的带有参考参数的聚类算法[J];计算机工程;2008年09期 |
3 |
李斌;数据流处理自动化和重新设计[J];管理科学文摘;1997年05期 |
4 |
曲建华;马英红;;改进的蚂蚁聚类算法[J];计算机应用研究;2010年09期 |
5 |
许剑峰,林嘉宜,黎绍发;一种基于中心对称性的聚类算法[J];计算机工程与设计;2003年05期 |
6 |
李晓莉,陈雪;基于模式识别聚类思想的PON ODN规划设计[J];光通信技术;2003年12期 |
7 |
张彩虹,王春才,颜雁;医保决策支持系统中的聚类算法[J];长春理工大学学报;2004年04期 |
8 |
史兴键,李伟华,王文奇;基于优化聚类算法的安全审计模型[J];计算机工程与应用;2005年17期 |
9 |
周如旗;个性化数据聚类的属性坐标分析法[J];电脑与信息技术;2005年03期 |
10 |
潘磊,吴小俊,尤媛媛;基于聚类的视频镜头分割和关键帧提取[J];红外与激光工程;2005年03期 |
11 |
张永梅,韩焱,张建华;一种有效聚类算法的研究和实现[J];计算机应用;2005年07期 |
12 |
叶菲,罗景青;一种基于BFSN聚类的多参数综合分选算法[J];雷达与对抗;2005年02期 |
13 |
吕昱;程代杰;;基于SOM的市场细分研究[J];计算机科学;2005年12期 |
14 |
何明;冯博琴;马兆丰;傅向华;;一种基于高斯混合模型的无监督粗糙聚类方法[J];哈尔滨工业大学学报;2006年02期 |
15 |
谷淑化;吕维先;;基于消息传递的并行聚类算法[J];现代计算机;2006年01期 |
16 |
陈荣元;蒋加伏;;基于聚类算法和层次支持向量机的人脸识别方法[J];计算技术与自动化;2006年01期 |
17 |
周宇;覃征;;聚类分析中特征选择的研究[J];计算机应用研究;2006年05期 |
18 |
蒋志为;陶宏才;白学祥;;基于模糊集的蚁群聚类算法的改进[J];计算机应用;2006年08期 |
19 |
张亚东;梁高翔;;使用聚类方法分析IP报文特征[J];光盘技术;2006年03期 |
20 |
周新媛;杜洁;何强;;基于共现的词聚类的研究[J];长沙大学学报;2007年02期 |
|