收藏本站
《华南理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

聚类分析中K-均值与K-中心点算法的研究

吴文亮  
【摘要】:近年来随着信息技术的快速发展,各行各业都积累了越来越多的数据,如何从这些海量数据中挖掘出有用的信息便成了一个很大的困难。随着人工智能技术的发展,数据挖掘技术逐渐被提出来了,用以发掘隐含的信息和数据的内在模式。聚类分析是数据挖掘的经典内容,聚类算法的应用领域包括商务决策、基因分类、图像识别、语义识别、字符识别和数据压缩。聚类技术目前已有的方法有划分的、层次的、密度的、网格的、模型的、统计学的、高维的和约束的方法。 本文对聚类分析中的K-均值算法和K-中心点算法进行了研究,具体工作如下: 首先,对前人在K-均值算法和K-中心点算法方面所做的工作进行了详细的分析和归纳,提出了要研究的问题。 其次,对K-均值算法进行了研究,K-均值算法具有简单和快速的特点,在现实生活中得到广泛的应用。但K-均值算法存在一些缺陷,针对K-均值算法中存在的K值难以确定、K个中心的位置难以选取、孤立点影响聚类效果和只能处理球状类数据等四个缺陷,提出了改进的K-均值算法,该算法可同时克服这些问题;针对K-均值算法中需要人工输入K值的问题,提出了自动获取K-均值聚类参数K值的算法,该算法不再需要人工输入K值,提高了算法的自动化处理能力。通过实验,对算法进行了验证,实验结果表明改进的算法有效的提高了算法的性能。 最后,对K-中心点算法中的代表算法PAM(Partitioning Around Medoids,围绕中心点的划分)算法进行了研究,K-中心点算法是在K-均值算法对离群点敏感这样的背景下提出来的一类算法。该类算法具有很好的鲁棒性,但随着数据的增多计算代价显著增高,且其代价函数是通过平均相异度来评估的,当出现两个负代价相等时,容易陷入死循环。针对K-中心点算法容易陷入局部最优的缺陷,提出了采用K-均值预处理回溯法对其进行改进,得到了基于K-均值预处理回溯法的PAM算法(K-means Data Preprocessing Backward Search PAM ,简称KDPBS-PAM)。用回溯的方法使得出现负代价相等情况时,能够跳出死循环,通过预处理方法来加快计算速度。用C语言对算法进行了仿真,仿真结果表明,所提算法能够克服死循环的缺陷而且运算速度得到了加快。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP311.13

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 孙玲芳;李烁朋;;基于K-means聚类与张量分解的社会化标签推荐系统研究[J];江苏科技大学学报(自然科学版);2012年06期
中国硕士学位论文全文数据库 前4条
1 史琳琳;车牌识别中车牌定位技术的研究[D];东华大学;2012年
2 王力磊;桓仁流域汛期旬径流预报方法研究及应用[D];大连理工大学;2012年
3 余庆;基于多变量样本图方法的古陶瓷分类研究[D];景德镇陶瓷学院;2012年
4 唐杰;mCSCL环境下异质学习伙伴推荐系统研究[D];浙江工业大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 王文发;马燕;李宏达;;回溯法求解多约束分配问题[J];江西师范大学学报(自然科学版);2008年06期
2 陈东;皮德常;;基于属性加权的改进K-Means算法[J];电脑知识与技术;2009年09期
3 裴继红,范九伦,谢维信;聚类中心的初始化方法[J];电子科学学刊;1999年03期
4 赵书慧;;K中心点算法——PAM的分析与实现[J];福建电脑;2008年06期
5 李双虎,王铁洪;Kmeans聚类分析算法中一个新的确定聚类个数有效性的指标[J];河北省科学院学报;2003年04期
6 杨源杰,黄道;人工神经网络算法研究及应用[J];华东理工大学学报;2002年05期
7 何振峰;;一种基于限制的PAM算法[J];计算机工程与应用;2006年06期
8 毛韶阳;李肯立;;优化K-means初始聚类中心研究[J];计算机工程与应用;2007年22期
9 赖玉霞;刘建平;;K-means算法的初始聚类中心的优化[J];计算机工程与应用;2008年10期
10 汪军;王传玉;周鸣争;;半监督的改进K-均值聚类算法[J];计算机工程与应用;2009年28期
中国博士学位论文全文数据库 前5条
1 侯澍旻;时序数据挖掘及其在故障诊断中的应用研究[D];武汉科技大学;2006年
2 李航;遗传算法求解多模态优化问题的研究[D];天津大学;2007年
3 杨善升;基于数据挖掘的若干化工过程优化和化合物构效关系研究[D];上海大学;2008年
4 殷瑞飞;数据挖掘中的聚类方法及其应用[D];厦门大学;2008年
5 李智勇;电力系统运行信息的数据挖掘研究[D];浙江大学;2009年
中国硕士学位论文全文数据库 前4条
1 于翔;聚类分析中k-均值方法的研究[D];哈尔滨工程大学;2007年
2 蔡元哲;本体实例学习关键技术的研究[D];中国人民大学;2008年
3 彭丽;数据挖掘中几种划分聚类算法的比较及改进[D];大连理工大学;2008年
4 韩新伟;基于混合特征的模糊聚类技术研究[D];山西大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
2 黄远顺;;矫直机的自动故障预报技术[J];安徽冶金;2012年01期
3 马艳玥;;浅论宁夏太阳山物流园的网络设计和应用系统优选[J];安康学院学报;2010年02期
4 赵晓华;谈玲珑;胡敦利;;基于Sub_FCM聚类算法的交通流量段自动划分方法[J];北京工业大学学报;2011年08期
5 张世博;周义明;;一种优化初始化中心的k均值web信息聚类算法[J];北京石油化工学院学报;2011年04期
6 李业丽;秦臻;;一种改进的k-means算法[J];北京印刷学院学报;2007年02期
7 田彦山;;基于山峰聚类的聚类上限确定方法[J];江西师范大学学报(自然科学版);2007年02期
8 唐保祥;;有限集合所有划分的迭代算法[J];江西师范大学学报(自然科学版);2009年06期
9 毛韶阳;李肯立;;K-means初始聚类中心优化算法研究[J];重庆邮电大学学报(自然科学版);2007年04期
10 杨金辉;赵晋;马添翼;孙延风;;基于PCA-SOM的上市公司综合绩效评价[J];吉林大学学报(信息科学版);2008年02期
中国重要会议论文全文数据库 前10条
1 魏立新;田学静;王洪瑞;宋阳;;基于改进型模糊聚类的模糊系统辨识方法[A];第二十七届中国控制会议论文集[C];2008年
2 杨青;刘晔;张东旭;刘畅;;快速查找最优初始聚类数K的改进K-means算法[A];中国自动化学会控制理论专业委员会A卷[C];2011年
3 李友元;寇纲;施宇;陆晨;石勇;;基于组合熵权TOPSIS方法的山东省外商直接投资区位选择分析[A];经济全球化与系统工程——中国系统工程学会第16届学术年会论文集[C];2010年
4 张勇;寇纲;李友元;;一种新的农业气象灾害评估模型[A];经济全球化与系统工程——中国系统工程学会第16届学术年会论文集[C];2010年
5 江华;王翰虎;陈梅;;一种基于K-means聚类分组的P2P超结点模型[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
6 高争艳;王慕坤;;基于核K-均值聚类和支持向量机结合的说话人识别方法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
7 关欣;郭强;赵静;何高健;赵维青;;基于粗糙信息熵和蚁群算法的雷达辐射源识别研究[A];探索 创新 交流(第4集)——第四届中国航空学会青年科技论坛文集[C];2010年
8 吕敬堂;吕大明;张浩;;基于SPSS的农业功能聚类分区方法研究[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
9 韩娜;滕少华;房小兆;;基于EMD和SVD的多元时间序列聚类研究[A];第十五届全国图象图形学学术会议论文集[C];2010年
10 郑冬东;程岩;;基于权重K-Means聚类的定向营销研究[A];第四届(2009)中国管理学年会——管理科学与工程分会场论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
2 孙鹏飞;基于计算智能技术的蛋白质结构预测方法研究[D];哈尔滨工程大学;2010年
3 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
4 宋清昆;自适应结构优化神经网络控制研究[D];哈尔滨理工大学;2009年
5 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
6 闫正兵;内部热耦合空分塔的建模与优化研究[D];浙江大学;2010年
7 于秀娟;加工过程的质量异常预测与诊断方法研究[D];吉林大学;2011年
8 刘晓茜;云计算数据中心结构及其调度机制研究[D];中国科学技术大学;2011年
9 蒋玲莉;基于核方法的旋转机械故障诊断技术与模式分析方法研究[D];中南大学;2010年
10 梁成军;网球技战术决策支持系统研究与应用[D];上海体育学院;2011年
中国硕士学位论文全文数据库 前10条
1 高兆梓;基于专利分析的竞争对手分类系统研究[D];山东科技大学;2010年
2 张晓冬;基于全矢谱的智能诊断技术研究[D];郑州大学;2010年
3 张书春;数据挖掘技术在SMS系统中的应用研究[D];郑州大学;2010年
4 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
5 方超;木材缺陷的图像检测技术[D];哈尔滨工程大学;2010年
6 刘振广;一种改进的k_means聚类算法研究[D];哈尔滨工程大学;2010年
7 李芳;脑机接口中脑电信号特征提取及分类算法研究[D];大连理工大学;2010年
8 张进;我国施工劳动生产率管理研究[D];大连理工大学;2010年
9 孙红艳;改进的小生境遗传聚类算法应用研究[D];辽宁工程技术大学;2010年
10 王月;改进的模糊C-均值算法在文本聚类中的应用研究[D];辽宁工程技术大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 董霞;王本德;梁国华;;PSRM模型及其在大伙房水库中的应用研究[J];东北水利水电;2009年01期
2 唐杰;李浩君;邱飞岳;;mCSCL环境下协作分组的伙伴模型研究[J];中国远程教育;2012年02期
3 黄荣杯;CSCL的理论与方法[J];电化教育研究;1999年06期
4 叶成林,徐福荫,许骏;移动学习研究综述[J];电化教育研究;2004年03期
5 刘黄玲子,黄荣怀;CSCL中的交互研究[J];电化教育研究;2005年05期
6 马启龙;;教育技术学的专门研究方法综述[J];电化教育研究;2010年05期
7 陈守煜,周惠成;迳流长期预报的模糊推理模式[J];大连工学院学报;1985年01期
8 刘冀;王本德;袁晶瑄;周惠成;;基于相空间重构的支持向量机方法在径流中长期预报中应用[J];大连理工大学学报;2008年04期
9 张新峰,沈兰荪;图像分割技术研究[J];电路与系统学报;2004年02期
10 骆期裕;颜一鸣;;基于Web的协作式学习分组策略研究[J];电脑知识与技术;2009年28期
中国博士学位论文全文数据库 前3条
1 习树峰;跨流域调水预报优化调度方法及应用研究[D];大连理工大学;2011年
2 赵建华;Web环境下智能协作学习系统构建的理论与方法[D];华南师范大学;2002年
3 金良海;彩色图像滤波与基于四元数的彩色图像处理方法[D];华中科技大学;2008年
中国硕士学位论文全文数据库 前10条
1 罗均;基于SecondLife虚拟图书馆的学习环境设计与实现[D];西南大学;2011年
2 刘向丽;基于学习风格的个性化移动学习网站的研究与设计[D];华中师范大学;2011年
3 刘荣;基于K-均值聚类遗传算法的联合选址库存模型研究[D];华中师范大学;2011年
4 桑培罗布;多元统计分析与数据可视化方法在调查分析中的应用[D];中央民族大学;2011年
5 马利东;基于模糊聚类的网络合作学习研究及其算法实现[D];华东师范大学;2003年
6 李晨;车牌识别技术的研究及其在智能交通系统中的应用[D];西北工业大学;2006年
7 刘菊香;基于模糊理论的网上协作学习学生分组系统的研究与实现[D];华东师范大学;2006年
8 刘艳云;基于小波变换与RBF神经网络的车牌自动识别技术的研究[D];长沙理工大学;2006年
9 董艳萍;大伙房径流中长期预报及引水调度方式研究[D];大连理工大学;2008年
10 吴晓蓉;K-均值聚类算法初始中心选取相关问题的研究[D];湖南大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 李青,张军,张学军;解决排班问题的多目标优化模型及算法研究[J];北京航空航天大学学报;2003年09期
2 蒋其友,郭向云,麻德贤;运用PLEX数据结构建立通用合成氨流程模拟系统[J];北京化工学院学报(自然科学版);1993年01期
3 牛琨;张舒博;陈俊亮;;融合网格密度的聚类中心初始化方案[J];北京邮电大学学报;2007年02期
4 刘虎,张焕春,经亚枝,朱力立;并行多种群模糊遗传算法参数[J];吉林大学学报(信息科学版);2005年06期
5 赵衍刚,江近仁;一个以遗传算法为基础的结构可靠性分析方法[J];地震工程与工程振动;1995年03期
6 曾清海;排课表问题的一种矩阵解法[J];电子科技大学学报;2000年05期
7 林海雪;我国电能质量的产业发展及应关注的问题[J];电力设备;2005年09期
8 徐永海,肖湘宁,杨以涵,陈学允;基于dq变换和ANN的电能质量扰动辨识[J];电力系统自动化;2001年14期
9 文继锋,刘沛;一种电能质量扰动的检测和分类方法[J];电力系统自动化;2002年01期
10 周伟,陈允平;自组织映射神经网络用于暂态稳定性分析的研究[J];电力系统自动化;2002年15期
中国博士学位论文全文数据库 前10条
1 范九伦;模糊聚类新算法与聚类有效性问题研究[D];西安电子科技大学;1998年
2 裴继红;基于模糊信息处理的图像分割方法研究[D];西安电子科技大学;1998年
3 张保稳;时间序列数据挖掘研究[D];西北工业大学;2002年
4 王达;时间序列数据挖掘研究与应用[D];浙江大学;2004年
5 李建强;基于数据挖掘的电站运行优化理论研究与应用[D];华北电力大学(河北);2006年
6 张彦魁;市场环境下的电力系统电压安全及预防控制研究[D];上海交通大学;2007年
7 李荣;生物信息数据挖掘若干关键问题研究与应用[D];复旦大学;2004年
8 王中;数据挖掘技术及其在证券领域的应用[D];天津大学;2005年
9 李大虎;基于广域测量的电力系统在线安全分析若干关键问题的研究[D];华中科技大学;2006年
10 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年
中国硕士学位论文全文数据库 前10条
1 刘奇;电力市场环境下湖南电网安全稳定水平研究[D];湖南大学;2004年
2 周剑;电网安全稳定分析方法研究及分析软件设计[D];清华大学;2004年
3 易珺;基于数据挖掘的酒店CRM客户获取的研究[D];广东工业大学;2005年
4 吴文娟;基于数据挖掘的连锁零售企业经营绩效评价研究[D];华中科技大学;2006年
5 谷湘文;电能质量在线监测系统的研发与典型负荷分析[D];浙江大学;2007年
6 陈浩;基于数据挖掘技术的信用卡申请评分模型研究[D];湖南大学;2007年
7 曾德华;数据挖掘在客户管理系统中的应用研究[D];华东师范大学;2007年
8 王红影;数据挖掘在医疗费用分析中的应用研究[D];大连海事大学;2008年
9 陈大庆;数据仓库和数据挖掘技术在电信领域的应用研究[D];上海交通大学;2007年
10 袁娟;电网安全稳定控制系统研究[D];华北电力大学(北京);2008年
【相似文献】
中国期刊全文数据库 前10条
1 赵书慧;;K中心点算法——PAM的分析与实现[J];福建电脑;2008年06期
2 ;中心点[J];宝藏;2008年06期
3 刘志成,文全刚;“K-中心点”聚类算法分析及其实现[J];电脑知识与技术;2005年06期
4 丁一;付弦;;基于核心树的增量聚类算法研究[J];湖北师范学院学报(自然科学版);2011年02期
5 李国;基于过采样技术提高ADC分辨率的研究与实现[J];计算机工程;2005年S1期
6 龙钧宇;张向群;;建立灰度图像的背景模型方法研究[J];信息技术与信息化;2006年03期
7 张明慧;黄廉卿;;数字CR医学图像自适应增强算法研究[J];微计算机信息;2010年08期
8 曹灿云;王延求;;一种空域均值滤波的去块效应方法[J];福建电脑;2010年12期
9 谢志强;于亮;杨静;;多维数据的改进最小生成树聚类算法[J];哈尔滨工程大学学报;2008年08期
10 姜鑫;李义杰;刘明依;;聚类算法在电信行业交叉销售中的应用研究[J];计算机仿真;2009年09期
中国重要会议论文全文数据库 前10条
1 吴景岚;朱文兴;;基于k中心点的迭代局部搜索聚类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 韩秀鹏;李晓强;;浅谈炉缸中心点温度波动趋势的重要性[A];2011年全国冶金节能减排与低碳技术发展研讨会文集[C];2011年
3 梁倬;尹梁;;指纹识别中的特征点提取算法[A];第二届全国信息获取与处理学术会议论文集[C];2004年
4 鲁路平;张勇;;卫星影像与矢量地图的自动配准[A];第十七届中国遥感大会摘要集[C];2010年
5 应捷;袁一方;张仁杰;于莲芝;;实时指纹识别系统的特征点匹配算法[A];第三届全国信息获取与处理学术会议论文集[C];2005年
6 应捷;袁一方;张仁杰;;一种新的实时指纹特征点匹配算法[A];第七届青年学术会议论文集[C];2005年
7 王瑞利;倪国喜;林忠;;关于无网格方法中撒点算法[A];中国工程物理研究院科技年报(2005)[C];2005年
8 金报国;;人体环节体积测定及密度计算方法[A];第四届全国运动生物力学学术会议论文集(四)[C];1983年
9 盛玉红;热西达;;凸二次规划问题的一种内点算法[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
10 刘岩;关振群;张洪武;张占群;;面向大规模科学计算的三维Delaunay快速插点算法[A];中国计算力学大会'2010(CCCM2010)暨第八届南方计算力学学术会议(SCCM8)论文集[C];2010年
中国重要报纸全文数据库 前10条
1 鸣人;“液化”瘦身如何不露痕迹[N];中国摄影报;2010年
2 记者 陶玮 通讯员 盛莉;农房建设率先启动[N];嘉兴日报;2008年
3 本报记者 易非;中国经济正回归均值[N];中国证券报;2009年
4 JO;将心爱的墙纸放在桌面的任意位置[N];电脑报;2004年
5 晓琳;老式装钮机的修理方法与技巧[N];中国服饰报;2010年
6 南溪山医院党委副书记、纪委书记 张超群;围绕中心点 找准切入点 加大给力点[N];桂林日报;2011年
7 本报记者 雷伶俐;湖南 费用参照前三年运行均值确定[N];政府采购信息报;2011年
8 中国医药商业协会副秘书长 秘铁华;售药能力优于全国均值[N];医药经济报;2010年
9 徐大亮;药店经营中的点线面[N];中国医药报;2008年
10 周圣霞;PowerPoint中对象旋转更轻松[N];中国电脑教育报;2005年
中国博士学位论文全文数据库 前10条
1 高钦姣;利用径向基函数进行微分方程数值解的动点算法研究与应用[D];复旦大学;2012年
2 王守强;多中心点聚类问题的随机算法[D];山东大学;2010年
3 黄鹏;金属及岩土冲击动力学问题的物质点法研究[D];清华大学;2010年
4 徐钊;自守L-函数在特殊点的非零问题[D];山东大学;2011年
5 张毅;热荷载作用下浮法玻璃和低辐射镀膜玻璃破裂行为研究[D];中国科学技术大学;2011年
6 张文星;增广拉格朗日型算法及其在图像处理中的应用[D];南京大学;2012年
7 王丰辉;Hilbert空间非线性优化问题之迭代方法[D];华东理工大学;2011年
8 Mohammed Harunor Rashid;Banach空间中广义方程的迭代解法[D];浙江大学;2012年
9 孙顺凯;流体力学方程与扩散方程有限点方法的若干研究[D];中国工程物理研究院;2010年
10 李立伟;Banach空间的完全凸函数与逼近点算法[D];东北师范大学;2008年
中国硕士学位论文全文数据库 前10条
1 吴文亮;聚类分析中K-均值与K-中心点算法的研究[D];华南理工大学;2011年
2 赵旭东;基于等势点算法的M-J分形集的研究[D];大连理工大学;2012年
3 闵亮;电力系统动态安全域边界性质的研究[D];天津大学;2004年
4 陈海玲;城市道路模型研究[D];北京邮电大学;2010年
5 于亮;基于改进的最小生成树聚类算法研究[D];哈尔滨理工大学;2008年
6 陈宗利;面向SNS的社会网络数据抓取与经验性分析[D];长安大学;2011年
7 徐作英;基于半监督聚类算法的研究与应用[D];青岛大学;2010年
8 陈玮;基于数字图像处理的拱顶位移监测系统研究[D];华中科技大学;2011年
9 吴燕;基于层次聚类的科技项目分类与查重研究[D];天津财经大学;2008年
10 张志伟;多层螺旋CT自动管电流调制技术的实验研究及其临床应用[D];重庆医科大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026