收藏本站
《华北电力大学》 2016年
收藏 | 手机打开
二维码
手机客户端打开本文

基于MapReduce的聚类算法并行化研究

刘德超  
【摘要】:随着社会信息化的进程,海量数据迅速出现,许多并行数据挖掘算法已被提出。聚类分析是数据挖掘的一种强有力的分析工具,其显著特征就是不需要任何先验知识或信息,属于无监督学习。K-means算法是典型的基于划分的聚类算法,简单且易于实现,但也存在缺点,如对初始聚类中心敏感,易陷入局部最优等。面对大规模海量数据和高维数据类型,传统计算模型已经难以提供所需的处理能力,Hadoop云计算平台的出现为数据的处理提供了新的方式。电力系统智能化建设的不断深入和推进,电力系统数据呈现海量化、高维化的趋势。当今全球能源问题日益严峻,国内外对智能电网的建设都进行了深入推进,伴随着产生的电力数据呈指数级增长,成为了众所关注的大数据。鉴于大数据在电网中出现的场合越来越多,有必要结合Hadoop云平台,借助分布式冗余存储及并行计算等,对电力海量数据的可靠、高效处理进行研究。本文利用云计算中的MapReduce并行框架对聚类分析中的K-means算法进行并行化研究,并建模对电力系统不良数据进行检测和辨识,主要的研究工作如下:首先,针对传统聚类算法无法满足处理海量数据等情况,在分析现有K-means算法不足的基础上,引入随机抽样和最大最小距离法等技术,并结合MapReduce并行计算框架,提出一种基于MapReduce的改进K-means聚类算法—MR-IKmeans(MapReduce-based Improved K-means)。首先对数据集进行多次随机抽样,然后运用两阶段最大最小距离法以产生最佳初始聚类中心,最后再用K-means算法进行聚类。选用UCI知名数据集在Hadoop集群上的实验表明:该算法在收敛速度及聚类精度上优于传统K-means算法,且在处理海量数据时具有优异的并行性能。其次,针对电力系统中的不良数据将导致电力系统状态估计结果的准确性降低,而传统聚类算法处理海量高维数据时单机计算资源不足,近年来较流行的MapReduce框架不能有效处理频繁迭代计算等问题,提出一种基于Spark的并行K-means算法辨识不良数据的新方法。以某一节点电力负荷数据为研究对象,运用基于Spark的并行K-means聚类算法提取出日负荷特征曲线,分别对输电网状态估计中的不良数据进行检测和辨识。选用EUNITE提供的真实电力负荷数据进行实验,结果表明此方法能有效提高状态估计结果的准确性,与基于MapReduce框架的方法相比,具有更好的加速比、扩展性,能更好的处理电力系统的海量数据。在实验室搭建云计算集群并进行实验测试与算例分析,结果证明,本文提出的算法是快速有效的,基于Spark和聚类分析的辨识不良数据的新方法效果良好,满足了电力系统处理海量高维数据的需求,在保证电力系统状态估计准确性方面具有十分重要的应用价值。
【学位授予单位】:华北电力大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 周旭;卢凯;陈沉;;确定性并行技术[J];计算机学报;2015年05期
2 张素香;赵丙镇;王风雨;张东;;海量数据下的电力负荷短期预测[J];中国电机工程学报;2015年01期
3 张东霞;苗新;刘丽平;张焰;刘科研;;智能电网大数据技术发展研究[J];中国电机工程学报;2015年01期
4 朱军;胡文波;;贝叶斯机器学习前沿进展综述[J];计算机研究与发展;2015年01期
5 王肇国;易涵;张为华;;基于机器学习特性的数据中心能耗优化方法[J];软件学报;2014年07期
6 王保义;赵硕;张少敏;;基于云计算和极限学习机的分布式电力负荷预测算法[J];电网技术;2014年02期
7 韩蕾;孙徐湛;吴志川;陈立军;;MapReduce上基于抽样的数据划分最优化研究[J];计算机研究与发展;2013年S2期
8 孙谦;姚建刚;金敏;杨胜杰;匡少林;徐振超;;基于特性矩阵分层分析的短期母线负荷预测坏数据处理策略[J];电工技术学报;2013年07期
9 张素香;刘建明;赵丙镇;曹津平;;基于云计算的居民用电行为分析模型研究[J];电网技术;2013年06期
10 海沫;张书云;马燕林;;分布式环境中聚类问题算法研究综述[J];计算机应用研究;2013年09期
【共引文献】
中国期刊全文数据库 前10条
1 龚霄;邓超志;朱怀金;夏伊乔;郭创新;;一种输变电设备多源数据处理系统的功能设计[J];机电工程;2017年06期
2 王毅;李鼎睿;康重庆;;低秩矩阵分解在母线坏数据辨识与修复中的应用[J];电网技术;2017年06期
3 崔艳妍;王军;苏剑;马丽;苑帅;刘伟;刘苑红;陈海;张东霞;;配电网运营大数据挖掘与分析[J];供用电;2017年06期
4 陶顺;陈鹏伟;肖湘宁;陈征;;智能配电网不确定性建模与供电特征优化技术综述[J];电工技术学报;2017年10期
5 吴凯军;陈东;;智能电网大数据应用问题分析[J];电子世界;2017年10期
6 王炳鑫;侯岩;方红旺;陈雨泽;刘建;;面向“削峰填谷”的电力客户用电行为分析[J];电信科学;2017年05期
7 毛艳芳;王栋;冯鹏;季润阳;朱喆华;李珺涵;杨佩;;基于SparkR的用户用电行为分析[J];电力信息与通信技术;2017年05期
8 徐文娟;李勇;李玥;;基于多元回归对电力系统负荷影响因素的计量分析[J];齐齐哈尔大学学报(自然科学版);2017年03期
9 李滨;覃芳璐;吴茵;黄佳;;基于模糊信息粒化与多策略灵敏度的短期日负荷曲线预测[J];电工技术学报;2017年09期
10 范刘洋;汪可友;吴巍;李国杰;葛延峰;;多时间尺度的电力系统鲁棒调度研究[J];电网技术;2017年05期
【二级参考文献】
中国期刊全文数据库 前10条
1 钟清;孙闻;余南华;柳春芳;王芳;张鑫;;主动配电网规划中的负荷预测与发电预测[J];中国电机工程学报;2014年19期
2 肖白;周潮;穆钢;;空间电力负荷预测方法综述与展望[J];中国电机工程学报;2013年25期
3 张素香;刘建明;赵丙镇;曹津平;;基于云计算的居民用电行为分析模型研究[J];电网技术;2013年06期
4 宋亚奇;周国亮;朱永利;;智能电网大数据处理技术现状与挑战[J];电网技术;2013年04期
5 李国杰;程学旗;;大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J];中国科学院院刊;2012年06期
6 钱鑫;张龙波;田爱奎;邓齐志;汪金苗;;一种面向数据密集型计算环境的聚类算法[J];济南大学学报(自然科学版);2013年01期
7 毛力;王运涛;刘兴阳;李朝锋;;基于改进极限学习机的短期电力负荷预测方法[J];电力系统保护与控制;2012年20期
8 毛典辉;;基于MapReduce的Canopy-Kmeans改进算法[J];计算机工程与应用;2012年27期
9 朱征;顾中坚;吴金龙;桂胜;;云计算在电力系统数据灾备业务中的应用研究[J];电网技术;2012年09期
10 刘萌;褚晓东;张文;冯宗英;;负荷分布式控制的云计算平台构架设计[J];电网技术;2012年08期
【相似文献】
中国期刊全文数据库 前10条
1 葛磊;武芳;王鹏波;张冬林;;3维建筑综合中基于最小特征的面平移算法[J];测绘科学技术学报;2009年02期
2 骆雯,孙延明,陈振威,陈锦昌;判断点与封闭多边形相对关系的改进算法[J];机械;1999年03期
3 李林;卢显良;;一种基于切割映射的规则冲突消除算法[J];电子学报;2008年02期
4 刘巧玲;张红英;林茂松;;一种简单快速的图像去雾算法[J];计算机应用与软件;2013年07期
5 林亚平,杨小林;快速概率分析进化算法及其性能研究[J];电子学报;2001年02期
6 章郡锋;吴晓红;黄晓强;何小海;;基于暗原色先验去雾的改进算法[J];电视技术;2013年23期
7 杨铁军;靳婷;;一种动态整周模糊值求解算法及其仿真分析[J];系统工程与电子技术;2007年01期
8 周秀玲;郭平;陈宝维;王静;;几种计算超体积算法的比较研究[J];计算机工程;2011年03期
9 吴一戎,胡东辉,彭海良;Chirp Scaling SAR成象算法及其实现[J];电子科学学刊;1995年03期
10 王贵竹;一种产生单向分解值的算法[J];安徽大学学报(自然科学版);2001年03期
中国重要会议论文全文数据库 前10条
1 尹冀锋;;一种新的图象自适应增强算法[A];四川省通信学会一九九二年学术年会论文集[C];1992年
2 宁春平;田家玮;郭延辉;王影;张英涛;郑桂霞;刘研;;计算机辅助增强、分割算法在鉴别乳腺良、恶性肿块中的应用价值[A];中华医学会第十次全国超声医学学术会议论文汇编[C];2009年
3 谢丽聪;;SVB查询改写算法的改进[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 郑存红;;复杂背景下相关跟踪算法研究及DSP实现[A];中国光学学会2010年光学大会论文集[C];2010年
5 杨文杰;吴军;;RFID抗冲突算法研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
6 高山;毕笃彦;魏娜;;一种基于UPF的小目标TBD算法[A];第十四届全国图象图形学学术会议论文集[C];2008年
7 周磊;张卫华;王晓奇;张军;;基于流水算法的智能路障机器人设计[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
8 潘巍;李战怀;陈群;索博;李卫榜;;面向MapReduce的非对称分片复制连接算法优化技术研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
9 李伟伟;蔡康颖;郑新;王文成;;3D模型中重复结构的多尺度快速检测算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
10 杨任尔;陈恳;励金祥;;基于棱边方向检测的运动自适应去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
中国重要报纸全文数据库 前1条
1 国泰君安资产管理部;“算法交易”是道指暴跌罪魁祸首?[N];上海证券报;2010年
中国博士学位论文全文数据库 前10条
1 冯辉;网络化的并行与分布式优化算法研究及应用[D];复旦大学;2013年
2 许玉杰;云计算环境下海量数据的并行聚类算法研究[D];大连海事大学;2014年
3 李琰;基于猫群算法的高光谱遥感森林类型识别研究[D];东北林业大学;2015年
4 陈加顺;海洋环境下聚类算法的研究[D];南京航空航天大学;2014年
5 王洋;基于群体智能的通信网络告警关联规则挖掘算法研究[D];太原理工大学;2015年
6 雷雨;面向考试时间表问题的启发式进化算法研究[D];西安电子科技大学;2015年
7 熊霖;大数据下的数据选择与学习算法研究[D];西安电子科技大学;2015年
8 周雷;基于图结构的目标检测与分割算法研究[D];上海交通大学;2014年
9 王冰;人工蜂群算法的改进及相关应用的研究[D];北京理工大学;2015年
10 蒋亦樟;多视角和迁移学习识别方法和智能建模研究[D];江南大学;2015年
中国硕士学位论文全文数据库 前10条
1 姚鑫宇;EMD去噪与MUSIC算法在DOA估计中的联合应用[D];昆明理工大学;2015年
2 陆进;面向含噪数据聚类相关算法的研究[D];复旦大学;2014年
3 李家昌;基于能量约束的超声图像自动分割算法[D];华南理工大学;2015年
4 陈坚;基于密度和约束的数据流聚类算法研究[D];兰州大学;2015年
5 高健;基于Zynq7000平台的去雾算法研究及实现[D];南京理工大学;2015年
6 顾磊;基于Hadoop的聚类算法的数据优化及其应用研究[D];南京信息工程大学;2015年
7 杨燕霞;基于Hadoop平台的并行关联规则挖掘算法研究[D];四川师范大学;2015年
8 王羽;基于MapReduce的社区发现算法的设计与实现[D];南京理工大学;2015年
9 许振佳;流式数据的并行聚类算法研究[D];曲阜师范大学;2015年
10 董琴;人工蜂群算法的改进与应用[D];大连海事大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026