收藏本站
《沈阳工业大学》 2019年
收藏 | 手机打开
二维码
手机客户端打开本文

基于划分的聚类算法的改进及其应用

宋阳  
【摘要】:聚类是数据挖掘中非常热门的研究方向,是将数据集划分为不同的簇的过程,其目的是使同簇中的样本相异度较低,不同簇间的样本相异度较高。随着信息技术的快速发展与海量数据的产生,人们对聚类算法的效率、可靠性以及可扩展性的要求逐渐提高,使得海量数据聚类变得尤为重要。在众多聚类算法中,基于划分的K-means聚类算法因其原理简单、易操作,一直深受欢迎,但随着对算法的不断研究,其优缺点逐渐的暴露出来,本文主要研究在海量数据环境下K-means算法聚类性能的优化问题。从提高聚类算法准确率和效率的角度出发,本文对已有的基于划分的聚类算法进行了研究,主要解决了K-means算法中初始聚类中心点选取以及相异度函数对离群点、噪声敏感问题,并在此基础上,提出了基于MapReduce框架下的K-means聚类算法的改进。首先,针对K-means算法中的相异度函数是基于欧氏距离来计算的,对孤立点、离群点及其敏感,并易受噪声影响,尤其当数据量增多、属性类型复杂时,不能准确地计算出数据样本之间的相异程度问题。通过利用Chebychev Distance对欧氏距离进行内部加权,即用归一化思想来消除欧氏距离对噪声点和离群点敏感问题,使得数据对象能够更科学地划分到所属的聚类集中,进而给出了一种新的相异度公式。其次,通过改进MapReduce编程模型,把K-means算法部署在改进后的MapReduce编程模型并行化,在保证聚类质量的情况下加快K-means算法处理海量数据的速度。为验证改进算法的有效性,在UCI数据集上进行仿真实验,并与现有改进的K-means算法进行比较分析,实验结果表明:改进的算法提高了聚类的准确率和收敛速度。最后,将改进后的聚类算法应用到Uber和糖尿病数据集的分析中。对Uber出租车数据进行了聚类分析,帮助出租车司机把握城市需求状况,为用户提供更快捷的出行方式;对糖尿病患者的数据进行聚类预测,分析患者的各项指标,对患者是否存在糖尿病的风险进行了预测,说明了算法在医学数据分析方面具有良好的应用前景。
【学位授予单位】:沈阳工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP311.13

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 张宏哲;;FFT算法的一种改进[J];长安大学学报(自然科学版);1988年01期
2 苑宝生,俞铁城;连呼汉语识别研究[J];声学学报;1989年06期
3 孙杨模;;操作系统常见的几种算法举例分析[J];湖北三峡职业技术学院学报;2010年02期
4 郜振华;吴昊;;一种改进的混合蝙蝠算法[J];南华大学学报(自然科学版);2019年01期
5 吴天行;郭键;;基于“反学习”理论的人工蜂群算法在订单分批问题中的应用[J];物流技术;2017年12期
6 全燕;陈龙;;算法传播的风险批判:公共性背离与主体扭曲[J];华中师范大学学报(人文社会科学版);2019年01期
7 肖海军;成金华;何凡;;双核因素蝙蝠算法[J];中南民族大学学报(自然科学版);2018年01期
8 张进;;一种快速双对分逻辑运算算法[J];情报学报;1992年03期
9 陈广江;用MUSIC算法处理非均匀间隔采样数据[J];系统工程与电子技术;1998年09期
10 于浩;王芳;;ROHC算法在LWIP上的仿真与实现[J];计算机仿真;2017年12期
中国重要会议论文全文数据库 前8条
1 李孟霖;余祥;巫岱玥;许新坤;;基于蚁群TSP算法的路径规划问题研究[A];第六届中国指挥控制大会论文集(上册)[C];2018年
2 李灯熬;王晓毓;赵菊敏;史萌;张沛;;基于3D-MAP和CNMC多径抑制算法[A];第九届中国卫星导航学术年会论文集——S03 卫星导航信号及抗干扰技术[C];2018年
3 王璐;姜亢;张鹏;;星上压缩算法评测方案[A];第四届高分辨率对地观测学术年会论文集[C];2017年
4 孙迪峰;梁旭斌;赵天青;许学忠;郑辉;成龙;;宽带MUSIC算法中同步干扰的影响与对策[A];中国声学学会2017年全国声学学术会议论文集[C];2017年
5 尹冀锋;;一种新的图象自适应增强算法[A];四川省通信学会一九九二年学术年会论文集[C];1992年
6 王世平;马时平;李权合;何林远;王晨;丁文杉;刘坤;;一种基于边缘约束的快速图像去雾算法[A];第八届中国航空学会青年科技论坛论文集[C];2018年
7 张炜;李勇刚;周晓君;;一种求解有城市访问顺序约束旅行商问题的状态转移算法[A];2018中国自动化大会(CAC2018)论文集[C];2018年
8 饶洪辉;姬长英;;基于分水岭算法的绿色作物和背景分割[A];农业工程科技创新与建设现代农业——2005年中国农业工程学会学术年会论文集第三分册[C];2005年
中国重要报纸全文数据库 前1条
1 林珊珊;算法推荐中的伦理冲突[N];学习时报;2019年
中国博士学位论文全文数据库 前10条
1 苗苗;类电磁机制算法及若干应用的研究[D];西安电子科技大学;2017年
2 刘婧;非理想条件下DOA估计算法研究[D];哈尔滨工程大学;2018年
3 郑伟华;快速傅立叶变换—算法及应用[D];湖南大学;2015年
4 彭展;序列挖掘中几类关键问题的模型及算法研究[D];西安电子科技大学;2017年
5 李勇;基于深度学习的粒子图像测速算法研究及应用[D];华中科技大学;2018年
6 宋云胜;基于划分与压缩的加速学习算法研究[D];山西大学;2018年
7 滕飞;基于视觉的内河重点水域船舶跟踪算法研究[D];武汉理工大学;2016年
8 谢涌泉;蜜蜂算法研究与应用[D];武汉理工大学;2015年
9 陈克明;动态多智能算法及其在物流配送系统中的应用研究[D];东华大学;2018年
10 丁才昌;分布估计算法性能及分类研究[D];武汉大学;2014年
中国硕士学位论文全文数据库 前10条
1 张韵婷;面向静态轨迹的异常检测算法研究[D];沈阳建筑大学;2017年
2 阎逸飞;基于Key-Value倾斜模型的Spark动态数据分区算法[D];北京邮电大学;2019年
3 叶德旺;脉冲星候选体特征筛选算法的研究与设计[D];贵州师范大学;2019年
4 王梦娜;灰狼优化算法的改进及其在参数估计中的应用[D];西安理工大学;2019年
5 张远亮;分布式异构图聚类算法研究[D];浙江大学;2019年
6 周俊;基于划分和抽样技术的非平衡类学习算法[D];信阳师范学院;2019年
7 宋阳;基于划分的聚类算法的改进及其应用[D];沈阳工业大学;2019年
8 刘慧慧;ARL中CLEAN算法的优化研究[D];郑州轻工业大学;2019年
9 王旻;虚拟低音算法的主客观评价研究[D];南京大学;2019年
10 原晓琦;基于雾霾天气下的单幅车辆图像检测算法应用研究[D];西南石油大学;2018年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026