收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于模型的半监督子空间聚类算法分析

吴尧  
【摘要】:聚类分析是数据挖掘领域中的关键技术之一,具有广泛的应用领域。随着科技的发展,高维数据聚类的应用越来越受到科学家们的关注。相对于传统聚类,高维数据聚类有更多的难点,由于高维数据集具有稀疏性,传统的聚类算法在处理这类数据时往往不能获得理想的效果。子空间聚类是实现高维数据聚类的有效途径,其思想是将搜索局限在相关维度中。 在高维数据聚类中,不同聚簇经常与不同的维度集合相关联。这样的维度集合被称为子空间。在不同的子空间中寻找不同聚簇的问题被称为子空间聚类。这种聚类经常很富有挑战性,因为寻找子空间的过程和探测聚簇的过程经常是循环依赖的。现在的算法或者枚举所有可能的子空间或者基于一种局部假设。然而前者的时间复杂度很高,后者的局部假设在很多实际应用中并不正确。目前似乎除了这两种方法以外没有别的方法能够打破这种循环依赖问题。然而,本文中提出了引入额外的约束信息来打破这种循环依赖的方法。在本文中本文提出的基于模型的半监督子空间聚类算法(MSSC)充分地利用约束信息发现子空间并且提出新的最优化目标函数进而成功地打破了循环依赖问题。 本文使用了大量的人工数据集和真实数据集验证了MSSC算法的准确性和可扩展性,实验结果表明即使使用很少量的半监督约束信息,MSSC算法的准确性就得到了很大的提升,并且远远高于其他的先进的子空间聚类算法。


知网文化
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978