收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

密度峰值聚类算法研究

贾露  
【摘要】:在大数据时代,每一个行业领域都会产生海量的数据,如何从这些数据中挖掘出有效的信息,就成为了我们所面临的巨大挑战。高效的聚类算法不仅是数据挖掘的基础,也是提取有用信息的一种重要手段,更是当前的热点研究课题。2014 年 6 月,一篇题为《Clustering by fast search and find of density peaks》的文章刊登在《Science》杂志,该论文介绍了一种新的聚类算法——密度峰值聚类算法,该算法是一种简洁、高效的聚类算法,已成功应用于多个领域。但是,该算法也存在着以下问题:(1)在计算局部密度时需要根据研究者的经验来确定截断距离;(2)对样本局部密度的计算方法过于简单;(3)对剩余样本点采用的是“一步”分配机制,该机制产生错误分配的几率较高。本文针对密度峰值聚类算法存在的不足之处进行了深入研究,并在此基础上进一步优化改进,具体研究内容和研究结果如下所示:1.提出了物理学优化的密度峰值聚类算法(W-CFSDPC算法)。该算法的主要目的在于尽可能地提高聚类质量。首先,在物理学的启发下,从力学角度重新分析密度峰值聚类算法,使其充分体现出数据自发产生的聚合与离散,并较好地实现不同学科之间的交叉与融合,基本的设计思想就是万事万物之间都是具有一定的相互作用力,不同规模数据集的样本点之间也是具有一定的作用力,根据万有引力定律重新定义计算样本的局部密度,最大限度的考虑样本点所处的周围环境;然后,利用第一宇宙速度的定义,将其改进计算剩余样本点与每一个类簇质心之间的“作用力”,以此将剩余样本点分为必须属于点和可能属于点这两种情况,不同的情况采用不同的分配机制;最后,将本文算法与五种聚类算法逐一进行对比,数值试验结果表明:本文算法是一种良好的聚类算法,不仅能够精准识别类簇质心的位置,而且对剩余样本点的分配也比较准确。2.提出了一种基于最佳邻居方差平衡的密度峰值聚类算法(F-CFSDPC算法)。首先,该算法是在最佳邻居方差平衡方法的启发下,通过研究数据点所处的平衡状态,在此基础上将最佳邻居的思想融入到密度峰值聚类算法中,利用最佳邻居方差平衡方法自适应地确定截断距离,减少人为因素所导致的不确定性;然后,依据数据点的最佳邻居构建树,通过构造树及分解树等操作,达到剩余样本点的快速精准分配;最后,将F-CFSDPC算法与SNN-CFSDPC算法、FKNN-CFSDPC算法、CFSDPC算法等进行实验对比,实验结果表明:F-CFSDPC算法在F-measure和FMI指标上较其余算法都有所提高,聚类质量较优。


知网文化
【相似文献】
中国期刊全文数据库 前18条
1 陈叶旺;申莲莲;钟才明;王田;陈谊;杜吉祥;;密度峰值聚类算法综述[J];计算机研究与发展;2020年02期
2 许英杰;孙俊逸;;基于网格和密度的聚类算法的分析与研究[J];现代电子技术;2008年20期
3 赖建章;倪志伟;刘志伟;;一种基于密度树的网格快速聚类算法的研究[J];计算机工程;2006年17期
4 张艳;;基于密度和层次的快速聚类算法在数据挖掘中的设计及实现[J];信息安全与技术;2013年08期
5 宋铭利;高新科;;基于距离的最大聚类数探索算法的探讨[J];矿山机械;2006年09期
6 朱永红;;覆盖聚类算法的应用研究[J];计算机技术与发展;2007年01期
7 孙凌燕;杨明;任建斌;;一种基于相对密度的快速聚类算法[J];微电子学与计算机;2009年12期
8 赵姝,张燕平,张铃,张媛,陈传明;覆盖聚类算法[J];安徽大学学报(自然科学版);2005年02期
9 冯兴杰,黄亚楼;带约束条件的聚类算法研究[J];计算机工程与应用;2005年07期
10 黄金花;;聚类算法的分析与比较[J];科技信息(科学教研);2008年13期
11 王本年;;用于分层强化学习的最小k-聚类算法[J];合肥工业大学学报(自然科学版);2006年05期
12 胡翰;戴琴;李威;刘仕琴;;改进的聚类算法在入侵检测系统中的应用分析[J];花炮科技与市场;2019年04期
13 王一萍;孙明;;一种改进的粗糙集聚类算法[J];数字技术与应用;2014年08期
14 王小华;沈杰;王荣波;;一种新的基于蚁群和凝聚的混合聚类算法[J];杭州电子科技大学学报;2010年01期
15 张天伍;詹自熬;;一种基于引力的聚类算法[J];河南科学;2009年01期
16 张红云,石阳,马垣;数据挖掘中聚类算法比较研究[J];鞍山钢铁学院学报;2001年05期
17 徐明钊;杨春;范健;张健;张耐民;;一种基于网格的等密度线聚类算法[J];兵器装备工程学报;2017年02期
18 李莉;;基于16SrRNA基因高通量测序聚类算法综述[J];长春师范大学学报;2020年02期
中国重要会议论文全文数据库 前20条
1 赖桃桃;冯少荣;张东站;;一种基于划分和密度的快速聚类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
2 王亚钊;周永华;刘毅;高睿;;人工生命算法的研究进展[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年
3 金文;钱卫宁;周傲英;施伯乐;;一种新颖、高效、基于综合因素的聚类算法[A];第十六届全国数据库学术会议论文集[C];1999年
4 杨欣斌;黄道;;一种新的聚类算法[A];2003年中国智能自动化会议论文集(下册)[C];2003年
5 郝芸;田野;康辉;;分布式聚类算法的研究[A];第九届中国通信学会学术年会论文集[C];2012年
6 徐一;杨静;任志刚;杨迅幸;;基于学习的烟花算法[A];2018中国自动化大会(CAC2018)论文集[C];2018年
7 姚雪;;基于算法多样化培养学生思维习惯和创新精神[A];2019年“区域优质教育资源的整合研究”研讨会论文集[C];2019年
8 熊薇薇;吴怀宇;;一种改进的角点检测算法[A];中国计量协会冶金分会2009年年会论文集[C];2009年
9 陈德华;解维;李悦;;面向大规模图数据的分布式并行聚类算法研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
10 陶丽;张自力;丁晓明;;一种适用于动态重构的联盟形成算法[A];2008年计算机应用技术交流会论文集[C];2008年
11 张兰平;;谈小学一年级算法多样化的优化[A];中华教育理论与实践科研论文成果选编(下)[C];2007年
12 杨红斌;;计划量算法的优化[A];第四届全国医院药剂科建设与管理学术研讨会论文集[C];2012年
13 林克旺;;基于分层网络实现高效的自稳定的选举算法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(下册)[C];2006年
14 徐英钟;高震;李波;;基于禁忌搜索的蚁群算法求解旅行商问题[A];第四届中国智能计算大会论文集[C];2010年
15 叶衍;楼荣生;何永保;;自然联结的优化算法[A];第十二届全国数据库学术会议论文集[C];1994年
16 赵唯;;晶粒度评级的改进算法[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
17 许伦辉;傅惠;徐建闽;;基于分形维数的交通流预测模型及算法研究[A];2003年中国智能自动化会议论文集(下册)[C];2003年
18 王树西;白硕;王斌;;模式推理中的“图检索”算法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
19 覃频频;许登元;姚起宏;黄大明;;基于表决融合的高速公路事件检测算法融合[A];'2006系统仿真技术及其应用学术交流会论文集[C];2006年
20 杨娜;付强;贺延国;;蚁群算法在水土资源中的应用研究进展[A];农业系统工程理论与实践研究——全国农业系统工程学术研讨会论文集[C];2006年
中国博士学位论文全文数据库 前20条
1 王冰;人工蜂群算法的改进及相关应用的研究[D];北京理工大学;2015年
2 浮婷;算法“黑箱”与算法责任机制研究[D];中国社会科学院研究生院;2020年
3 王艳娇;人工蜂群算法的研究与应用[D];哈尔滨工程大学;2013年
4 李美安;普适分布式互斥算法及应用[D];电子科技大学;2007年
5 王小根;粒子群优化算法的改进及其在图像中的应用研究[D];江南大学;2009年
6 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
7 刘婷;改进人工蜂群算法及其在多用户检测中的应用[D];天津大学;2013年
8 邱剑锋;人工蜂群算法的改进方法与收敛性理论的研究[D];安徽大学;2014年
9 许玉杰;云计算环境下海量数据的并行聚类算法研究[D];大连海事大学;2014年
10 王依章;多密度聚类算法研究[D];吉林大学;2020年
11 肖建元;保几何结构算法在等离子体物理中的应用[D];中国科学技术大学;2017年
12 盛歆漪;粒子群优化算法及其应用研究[D];江南大学;2015年
13 张冬丽;人工蜂群算法的改进及相关应用研究[D];燕山大学;2014年
14 石陆魁;非线性维数约减算法中若干关键问题的研究[D];天津大学;2005年
15 王贵参;重叠社区发现中的边聚类算法研究[D];吉林大学;2016年
16 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
17 孔翔宇;几类优化问题的人工蜂群算法[D];西安电子科技大学;2016年
18 谭跃;具有混沌局部搜索策略的粒子群优化算法研究[D];中南大学;2013年
19 赵进慧;膜计算仿生优化算法及应用研究[D];浙江大学;2010年
20 张松;人工蜂群算法研究及其应用[D];西安电子科技大学;2019年
中国硕士学位论文全文数据库 前20条
1 贾露;密度峰值聚类算法研究[D];西安理工大学;2020年
2 申莲莲;快速密度峰值聚类算法研究与应用[D];华侨大学;2020年
3 李娜;细菌觅食优化算法在聚类中的应用[D];陕西师范大学;2014年
4 郝丽静;面向微博话题的粒子群优化聚类算法研究[D];河南理工大学;2016年
5 张姣;基于智能算法的聚类算法研究[D];西安工程大学;2017年
6 解英杰;聚类算法及其在高职院校学生信息管理系统中的应用研究[D];山东师范大学;2012年
7 李萍;Affinity Propagation聚类算法的改进及其应用研究[D];浙江大学;2017年
8 孙文杰;基于层次的混合聚类算法研究[D];江西理工大学;2013年
9 陈祺;基于均场退火算法的半监督聚类方法的研究及应用[D];华南理工大学;2012年
10 李长进;基于蚁群算法的混合聚类算法研究[D];中国石油大学;2010年
11 方匡南;基于数据挖掘的分类和聚类算法研究及R语言实现[D];暨南大学;2007年
12 王奕丹;蜂群算法优化改进及其在聚类中的应用研究[D];长春工业大学;2020年
13 周末;基于蚁群算法的数据流聚类算法[D];东北大学;2009年
14 于智航;改进的密度聚类算法研究[D];大连理工大学;2007年
15 李文俊;面向离散时间序列的聚类算法研究[D];南京师范大学;2012年
16 高昇;基于密度聚类算法的改进方法研究[D];大连理工大学;2007年
17 金灿;改进杂交水稻优化算法在多目标聚类中的应用研究[D];湖北工业大学;2020年
18 郑倞;基于正态分布的密度峰聚类算法的研究[D];浙江工业大学;2016年
19 陈奇明;基于投票策略聚类融合算法的研究和实现[D];安徽工业大学;2010年
20 李艳文;基于快速搜索密度的数据流聚类算法[D];兰州大学;2016年
中国重要报纸全文数据库 前20条
1 数字经济学家、商汤智能产业研究院主任 刘志毅;今天我们被算法“控制”了吗[N];经济观察报;2020年
2 本报记者 马成涛;算法推荐 如何打破“信息茧房”[N];安徽日报;2020年
3 北京化工大学法律系 鲁春雅;自动化决策的算法解释权[N];中国社会科学报;2020年
4 郑磊;当算法操控人类[N];21世纪经济报道;2020年
5 吴明曦 马伯乐;以智驭能 算法制胜[N];解放军报;2020年
6 赵熙熙;科学家开发出纠错新算法[N];中国科学报;2017年
7 实习生 高行健;新算法助力人类“解梦”[N];科技日报;2020年
8 重庆市第四中级人民法院 艾庆平;赛博世界的算法规制[N];人民法院报;2020年
9 北京大学法学院教授 北京大学电子商务法研究中心主任 薛军;数字时代应高度关注算法规制[N];中国市场监管报;2020年
10 何勇海;别被偏好算法带偏了[N];重庆日报;2020年
11 陈广江;别让算法“算计”了孩子[N];海南日报;2020年
12 陈广江;别让算法“算计”了孩子[N];中国消费者报;2020年
13 任然;拒绝投喂:赋予消费者关闭算法的权利[N];中国青年报;2020年
14 龙敏飞;每个消费者都应有“关闭算法”的权利[N];珠海特区报;2020年
15 眉间尺;比算法推荐更重要的是确认眼神[N];科技日报;2018年
16 陈航辉;切勿陷入算法迷信[N];解放军报;2019年
17 西南政法大学行政法学院 邬蕾;算法与法秩序的重塑[N];中国社会科学报;2019年
18 曾子林 邹力;谨防智能化作战的算法误区[N];解放军报;2019年
19 吴学安;要注意算法中存在的法律隐患[N];中国审计报;2019年
20 本报记者 张建军;“7G”智慧算法来了[N];经济日报;2019年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978