收藏本站
《华南理工大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于图论的谱聚类算法研究和实现

郑杨帆  
【摘要】:聚类分析在信息检索和数据挖掘等领域都有很广泛的应用,是人们认识和探索事物之间内在联系的有效手段。聚类算法能够在没有任何数据先验知识的情况下对数据进行分群,从而找到数据中有价值的信息。谱聚类算法作为一种新型的聚类分析的算法,与常用的k-均值聚类方法相比,谱聚类具有明显的优势,该方法不仅不易陷入局部最优解,而且具有识别非凸分布的聚类的能力,能够对任意形状的样本空间进行聚类,适合于许多实际应用问题。 谱聚类算法是一种基于相似矩阵的聚类算法,使用谱图理论对相似矩阵进行划分。传统的谱聚类算法首先定义样本数据集的距离度量,基于距离度量获得相似性度量,由相似性度量构造样本数据集的相似度矩阵W,之后求出拉普拉斯矩阵L,计算出L的特征值和特征向量,最后选择一个或多个特征向量就可以对不同的数据点进行聚类。由于谱聚类算法直接在相似矩阵上进行分割,不同形式的相似矩阵对算法的影响很大,因此研究关于相似矩阵对谱聚类算法的影响以及如何构造一个适合谱聚类分割的相似矩阵问题,这些问题对于谱聚类算法来说,是具有研究意义的几个方面。 本文详细介绍了谱聚类算法的相关理论和方法以及谱聚类生效的原因和优势,并指出了传统的谱聚类算法受相似矩阵影响的问题。最后做了以下两个主要的工作: 第一,为了验证谱聚类算法相比k-均值算法能够在任意形状的样本空间上可进行聚类且不易陷入局部最优解两个方面上具有的优势。本文在构造谱聚类算法最后一步操作时,采用k-均值聚类算法,目的是为了对比谱聚类算法和k-均值聚类算法。算法代码在matlab7.0上实现,统计分析k-均值算法和谱聚类算法在基于图的初始样本数据集上的实验结果,说明谱聚类算法比k均值算法在聚类准确性和适用性范围上具有改进。 第二,虽然目前已经有了多种谱聚类算法,但是其区别仅在于所处理的矩阵不同,矩阵的谱和特征向量与聚类之间的关系并不十分地清楚,而且现在也还没有完整的理论来描述和界定谱聚类方法的性能和分析其局限性。由于谱聚类算法直接在相似矩阵上进行分割,在此,首先介绍一些目前存在的相似矩阵的构造方法,包括不同的距离公式产生的相似矩阵,不同的特征类型产生的相似矩阵以及不同的特征整合方法产生的相似矩阵,然而不同形式的相似矩阵对算法的影响很大,因此找到一种新的阻尼矩阵来代替相似矩阵,减少相似矩阵对算法的影响。改进的谱聚类算法并不是直接对相似度构造的相似矩阵进行聚类分析,而是对由阻尼距离构造的阻尼矩阵进行聚类分析。算法代码在matlab7.0上实现,统计分析改进的谱聚类算法和传统的谱聚类算法在基于图的初始样本数据集上的实验结果,说明改进的谱聚类算法比传统的谱聚类算法在聚类准确性上大部分情况下具有改进,也进一步丰富了构造相似矩阵的理论。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP301.6

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 冷明伟;陈晓云;颜清;;一种基于影响因子的快速K-均值算法[J];计算机应用;2007年12期
2 李鹏;马道钧;余菲;;基于聚类分析的说话人识别研究[J];仪器仪表用户;2008年01期
3 刘丽娜;孙铁利;;权值矩阵聚类算法[J];计算机仿真;2009年05期
4 谷淑化;吕维先;;基于消息传递的并行聚类算法[J];现代计算机;2006年01期
5 曾砺锋;;基于Rocchio方法和k均值聚类的支持向量机文本分类方法[J];软件导刊;2008年06期
6 佟伟祥;宋凯;;模糊C均值聚类算法在多元图像分割中的应用[J];微处理机;2008年05期
7 朱思峰;刘芳;柴争义;;免疫聚类算法在基因表达数据分析中的应用[J];北京邮电大学学报;2010年02期
8 曾利军;李泽军;柳佳刚;;基于矩阵加权关联规则的区间模糊C均值聚类[J];计算机工程;2010年22期
9 尉建兴;崔冬华;宁晓青;;蛙跳算法在Web文本聚类技术中的应用[J];电脑开发与应用;2011年05期
10 高颖;王修亮;陆旭青;殷允锋;;基于PSO的可能性C均值聚类算法的研究[J];计算机仿真;2010年09期
中国重要会议论文全文数据库 前10条
1 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
3 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
4 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
5 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
6 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
8 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 余琳;邓玲;;常见聚类算法的比较以及DSS系统中的应用[A];湖北省通信学会、武汉通信学会2009年学术年会论文集[C];2009年
中国重要报纸全文数据库 前3条
1 ;视频数据中挖“宝”[N];计算机世界;2002年
2 本报记者 赵凤华 通讯员 戴世勇 陶春明;本科生登上全国学术会议讲坛[N];科技日报;2008年
3 本报记者 于翔;多元管理防范金融风险[N];网络世界;2010年
中国博士学位论文全文数据库 前10条
1 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
2 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
3 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
4 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年
5 张鸿雁;基于DNA计算的聚类算法研究[D];山东师范大学;2011年
6 孙鹏岗;聚类算法研究及其在网络模块性分析中的应用[D];西安电子科技大学;2011年
7 曹付元;面向分类数据的聚类算法研究[D];山西大学;2010年
8 余卫宇;几种图像结构语义模型和图像[D];华南理工大学;2005年
9 梅娟;复杂生物网络聚类分析方法[D];江南大学;2010年
10 潘鸿飞;形状特征描述及聚类算法研究[D];安徽大学;2011年
中国硕士学位论文全文数据库 前10条
1 卜德云;自适应谱聚类算法的研究与应用[D];南京航空航天大学;2010年
2 石洪竺;量子进化聚类算法研究[D];西安电子科技大学;2010年
3 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年
4 张珠玉;聚类算法及其在日志数据处理中的应用研究[D];山东师范大学;2011年
5 叶冲轶;高维海量数据联合聚类算法的研究与应用[D];浙江工商大学;2010年
6 姚毓凯;一种有效的自适应网格密度聚类算法研究[D];兰州大学;2011年
7 王帆;基于优化目标可调控的免疫聚类算法的研究[D];太原理工大学;2010年
8 李长进;基于蚁群算法的混合聚类算法研究[D];中国石油大学;2010年
9 武彩丽;基于规范切和分水岭的聚类算法研究[D];西安电子科技大学;2010年
10 张立;基于新闻评论数据的K-means聚类算法的研究[D];太原理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026