收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

K均值算法初始聚类中心选取相关问题研究

李宇泊  
【摘要】:聚类分析是数据挖掘的功能之一,是在训练数据不提供类标号的情况下按照最大化类内对象间的相似性、最小化不同类对象之间的相似性的原则聚类和分组数据。目前,存在着大量的聚类算法,K均值算法是应用广泛的聚类算法之一。 K均值算法的优点是:算法思想简单;时间复杂度接近线性;对大规模数据的挖掘具有可伸缩性,但是该算法存在如下缺点:对聚类初始值的依赖;聚类个数K需要预先给定;准则函数易陷入局部极小;对离群点敏感等等。 本文重点针对K均值算法对初始聚类中心的依赖性,提出了基于密度选取K个初始聚类中心的算法。其主要思想是:在一个数据集合里,高密度区域的数据对象被低密度区域的对象所分割,处于低密度区域的数据对象通常被认为是噪声点。首先根据两个参数(邻域半径ε、高密度点在邻域半径内至少包含数据对象的数目MinPts),划分高低密度点,然后取高密度点集合G中相距最远的K个点作为初始聚类中心。通过在不同数据集(来自UCI数据库)上对两个算法的多次对比实验,验证了基于密度选取K个初始聚类中心的K均值算法比传统的K均值算法聚类结果准确率更高,更稳定。 研究进一步给出了基于距离矩阵D确定ε和MinPts参数值的方法。主要思想是:通过距离矩阵计算每个对象距离的中间值(median),然后取这些中间值的平均值作为ε的值。计算每个对象邻域半径e内对象的个数,将这些个数相加,再除以2*n,获得参数MinPts的值,其中n是数据集对象的个数。通过检验聚类结果是否理想或者以文献已给定的经验值作正确性判断依据,两种检验方法的多次实验都验证了计算两个参数值的算法是可用的。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨忠勇;;数据挖掘算法在入侵检测中的应用[J];科学技术与工程;2007年06期
2 赖玉霞;刘建平;杨国兴;;基于遗传算法的K均值聚类分析[J];计算机工程;2008年20期
3 蒋加伏;赵嘉;胡益红;;一种基于支持向量聚类的图像分割方法[J];计算机工程与应用;2009年30期
4 郝占刚;王正欧;;基于混沌社会演化算法的文本聚类新方法[J];系统工程学报;2007年01期
5 李永忠;杨鸽;徐静;赵博;孙彦;;基于粒子群优化的聚类入侵检测算法[J];江苏科技大学学报(自然科学版);2009年01期
6 郝占刚;王正欧;;基于社会演化算法的聚类新算法[J];情报杂志;2006年05期
7 石红丽;王洁;唐艳;张小军;;基于无线传感器网络的K均值算法研究[J];电子设计工程;2011年06期
8 兰义华;黄宇;;一种基于改进K均值的无监督入侵检测算法[J];软件导刊;2007年21期
9 吴艳文;胡学钢;;一种K-means算法的k值优化方案[J];巢湖学院学报;2007年06期
10 包健;厉小润;;K均值算法实现遥感图像的非监督分类[J];机电工程;2008年03期
11 刘芳;李义杰;;改进的种群分类蚁群算法及其应用[J];计算机系统应用;2010年01期
12 孟佳娜;邓俐伶;于玉海;唐品忠;;一种改进的K均值聚类算法[J];大连民族学院学报;2011年03期
13 肖会敏;刘臣;杨晓兵;;基于改进微粒群算法的K-MEANS聚类和孤立点查找[J];河南科学;2007年01期
14 李艳灵;李刚;;基于PSO的快速模糊C均值图像分割算法[J];计算机应用研究;2008年10期
15 宋文功;龙军;;k均值算法在网络入侵检测中的应用[J];微计算机信息;2009年15期
16 李翔文;赵敏;万光逵;;改进K均值算法实现提花花型的自动识别[J];微计算机信息;2010年02期
17 胡彧;毕晋芝;;遗传优化的K均值聚类算法[J];计算机系统应用;2010年06期
18 肖立中;邵志清;钱夕元;;一种用于网络入侵检测的杂交聚类算法研究[J];计算机工程;2007年04期
19 谷保平;许孝元;郭红艳;;基于粒子群优化的k均值算法在网络入侵检测中的应用[J];计算机应用;2007年06期
20 陶冶;曾志勇;余建坤;冯涛;;并行k均值聚类算法的完备性证明与实现[J];计算机工程;2010年22期
中国重要会议论文全文数据库 前2条
1 吴春旭;吴镝;蒋宁;;一种基于信息熵与K均值迭代模型的模糊聚类算法[A];第十届中国管理科学学术年会论文集[C];2008年
2 刘靖明;韩丽川;;粒子群优化k均值的混合聚类算法研究[A];2004年中国管理科学学术会议论文集[C];2004年
中国博士学位论文全文数据库 前1条
1 张红;像素级多分辨率图像融合方法研究[D];吉林大学;2008年
中国硕士学位论文全文数据库 前10条
1 刘海琳;基于遗传算法的Web用户聚类模型的研究[D];天津理工大学;2008年
2 王薇;基于鱼群的K均值聚类算法研究[D];哈尔滨工程大学;2008年
3 杨锋;基于数据挖掘的入侵检测技术研究[D];哈尔滨工程大学;2006年
4 王文利;基于数据挖掘的金融时间序列的小波理论应用[D];天津工业大学;2005年
5 张松顺;半监督学习方法及其应用研究[D];江南大学;2009年
6 王圣伟;基于服务质量的网格资源管理调度研究[D];西北师范大学;2007年
7 赵魏雨;基于改进的k均值聚类算法的P2P流量识别的研究[D];东北林业大学;2013年
8 王敏;基于遗传算法的改进K均值聚类[D];中北大学;2011年
9 李文刚;基于B/S架构的心理健康信息服务平台的设计与实现[D];河北科技大学;2012年
10 王树辰;基于海量舆情信息的话题检测系统的设计与实现[D];中山大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978