聚类分析及其在图像分割中的应用
【摘要】:
数据挖掘(Data Mining),又称为数据库中的知识发现(简称KDD),是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。数据挖掘是一门新兴的技术,它以数据库技术作为基础,把逻辑学、统计学、机器学习、模糊学、可视化计算等多门学科的成果综合在一起,进行如何从数据库中得到有用信息的研究。数据挖掘技术得到了人们的普遍关注,广泛应用于银行金融、保险、公共设施、政府、教育、远程通讯、软件开发、运输等各个企事业单位及国防科研上。
聚类分析是数据挖掘中的一个重要研究领域。所谓聚类,就是把没有类别标记的样本集按某种准则划分成若干类,使类内样本的相似性尽可能大,而类间样本的相似性尽量小,是一种无监督的学习方法。聚类分析通常是在没有先验知识支持的前提下进行的,它所要解决的就是在这种前提下,实现满足要求的类的聚合。聚类分析的研究主要集中在聚类算法上,产生性能好而且实用的聚类算法是其终极目的。迄今为止,人们提出了很多种不同的适用于数据挖掘的聚类算法,但这些算法仅适用于特定的问题及用户,而且它们在理论和方法上仍不完善,甚至还有严重的不足之处。对聚类算法的进一步优化研究将不仅有助于算法理论的完善,更有助于算法的推广和应用。
聚类是数据挖掘的重要分支之一,引入模糊理论的模糊聚类分析为现实数据提供了模糊处理能力,在许多领域被广泛应用。在本文中,讨论了常用的模糊聚类算法,讨论了这些算法的优缺点、存在的问题以及前景展望。
模糊c-均值聚类算法是目前广泛使用的模糊聚类算法。但它也存在一些缺点,例如模糊c-均值聚类算法初始化影响较大,在迭代时容易陷入局部极小。本文从引入隶属度函数、引入消息熵和类中心的约束出发,研究了模糊c-均值的改进方法。
在此基础上,提出了一种改进的模糊c-均值聚类算法,其基本思想是:通过对数据对象的模糊隶属度增加一个加权值,以及在算法中引入模糊聚类有效性函数对聚类数目c进行优选。为了证明FCM算法的实用性,我们将该算法应用于图像分割。
尽管人们在图像分割研究方面做了许多工作,提出的算法数以千计,但至今仍无通用的分割算法,也不存在一个判断分割是否成功的客观标准。在众多的分割算法中,基于聚类分析的图像分割方法是图像分割领域中一类极其重要和应用相当广泛的算法,而聚类分析中用得最普遍的是模糊C-均值聚类。采用模糊C-均值聚类的方法进行图像分割,避免了阈值设定的问题,聚类过程中不需要任何人工的干预,对于图像分割自动化有重要的意义。
本文从利用空间信息的角度进行了研究,即对FCM的目标函数进行惩罚从而约束隶属度函数。从邻域隶属度约束的角度出发,提出一个新的聚类目标函数,得到基于邻域隶属度约束的FCM图像分割算法。将该算法用于人工图像和实际图像的分割实验,实验结果表明了该算法的有效性以及对噪声的鲁棒性。