收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

云计算环境下的数据挖掘算法研究

秦海翔  
【摘要】:近年来,互联网以及计算机相关技术的飞速发展,包括照相技术、视频技术、电子商务等等,使得我们周围产生的数据呈爆发性增长,尤其在以智能手机为代表的移动互联网技术兴起之后更为明显。面对如此大规模的数据,数据的分析与处理成为巨大的难题,这便给了数据挖掘发展的机会。数据挖掘能够从这些海量的、异构的、随机的数据中提取对用户有价值的信息,发现用户感兴趣的模式。 传统数据挖掘技术在处理海量数据时往往耗时过长,云计算的出现为数据挖掘带来了解决这个问题的途径。云计算物理上往往建立在大型的集群或者大规模数据中心之上,通过规模化的优势,云计算能够提供强大而廉价的计算能力,廉价的存储网络。而且,公有云更使得大量用户能够同时按需获取自己所需的计算资源。 本文介绍云计算与数据挖掘相关的概念与特点,并着重介绍了开源云计算框架Hadoop。Hadoop是一个开源的搭建云平台的分布式计算框架。我们可以使用Hadoop轻松的搭建自己的集群而不需要了解复杂的底层通信机制。Hadoop有很多组件组成,其中最重要的两个部分是:分布式文件系统HDFS和MapReduce计算模型。HDFS可以提供一个安全可靠的文件系统,MapReduce则以消息通信模型为基础为用户提供了一个简单易用而不失高效的编程模型。MapReduce模型将任务分配给集群中的多个主机,并由主节点监控管理。 为了将现有数据挖掘算法在Hadoop集群上完美运行,真正利用集群并行化的优势提高运行效率,需要针对这些算法进行改造,将它们以MapReduce编程模型重新实现。本文以协同过滤算法为例,将提出一种在Hadoop集群上运行的可扩展的基于项的协同过滤算法。利用Hadoop与MapReduce的特性,将计算量大的任务划分,使其并行运行在不同的结点上。将协同过滤只能串行的部分分阶段,并在这些阶段内部以MapReduce模型实现,因为并行化要求map任务处理的数据各记录的处理与其它无关。其中最主要的是将计算量最大的两个项的相似值的计算实现并行化。在map阶段提取两个项的评分,在reduce阶段求两个项的相似值,这两个阶段都是并行化的,这样算法的整体效率有了很大提高。类似地,对K均值算法,关键则是将求项与质心的距离并行。 最后通过实验和分析,证明了Hadoop框架下的协同过滤与串行实现相比效率有了很大提高。 通过以上研究,我们了解了云计算环境下数据挖掘算法相比与单机环境下数据挖掘算法的优势和不足。论文主要研究了怎样将传统数据挖掘算法改造,以利用开源分布式框架Hadoop自身的特点,实现并行化,提高效率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 文俊浩,胡显芝,何光辉,徐玲;小波在数据挖掘算法中的运用[J];重庆大学学报(自然科学版);2004年12期
2 邹志文,朱金伟;数据挖掘算法研究与综述[J];计算机工程与设计;2005年09期
3 赵泽茂,何坤金,胡友进;基于距离的异常数据挖掘算法及其应用[J];计算机应用与软件;2005年09期
4 胡作霆;董兰芳;王洵;;图的数据挖掘算法研究[J];计算机工程;2006年03期
5 宋中山;吴立锋;;增量数据挖掘算法在区域交通管理中的应用[J];武汉理工大学学报(交通科学与工程版);2006年03期
6 哈金才;;数据挖掘算法的评价标准与方法[J];微电子学与计算机;2006年12期
7 修雅慧;邓文新;;数据挖掘算法评分函数研究[J];计算机与现代化;2008年09期
8 张美虎;;神经网络数据挖掘算法的研究与应用[J];扬州职业大学学报;2009年02期
9 李春生;单继辉;杨冬黎;;基于规则的数据挖掘算法选择机制研究[J];长江大学学报(自然科学版)理工卷;2009年03期
10 喻云峰;;数据挖掘算法的分析与研究[J];科技广场;2010年09期
11 吴昌钱;;信用分析中常用数据挖掘算法[J];硅谷;2011年06期
12 王海涛;陈树宁;;常用数据挖掘算法研究[J];电子设计工程;2011年11期
13 张俊鹏;贺建峰;马磊;;基于最优风险与预防模型的医疗数据挖掘算法[J];计算机工程;2011年22期
14 崔斌;吴东超;;数据挖掘算法及其在教学管理中的应用[J];铜陵职业技术学院学报;2011年04期
15 孙小杰;;一种自适应混合压缩的数据挖掘算法[J];黑龙江科技信息;2012年34期
16 曾磊;;浅谈数据挖掘算法研究与实现[J];电脑知识与技术;2012年36期
17 王晓艳;;数据挖掘算法的分析探讨[J];硅谷;2014年02期
18 丁崧,黄上腾;预测性模型中的一种数据挖掘算法[J];计算机工程与应用;2001年02期
19 李别;基于神经网络的数据挖掘算法[J];广东技术师范学院学报;2005年04期
20 王元志;王芳;;数据挖掘算法研究与综述[J];电脑知识与技术;2006年26期
中国重要会议论文全文数据库 前10条
1 贺炜;邢春晓;潘泉;;因果不完备条件下的数据挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 刘玲;张兴会;;基于神经网络的数据挖掘算法研究[A];全国第二届信号处理与应用学术会议专刊[C];2008年
3 陈曦;曾凡锋;;数据挖掘算法在风险评估中的应用[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
4 郭新宇;梁循;;大型数据库中数据挖掘算法SLIQ的研究及仿真[A];2004年中国管理科学学术会议论文集[C];2004年
5 张沫;栾媛媛;秦培玉;罗丹;;基于聚类算法的多维客户行为细分模型研究与实现[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
6 潘国林;杨帆;;数据挖掘算法在保险客户分析中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
7 张乃岳;张力;张学燕;;基于字段匹配的CRM数据挖掘算法与应用[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
8 祖巧红;陈定方;胡吉全;;客户分析中的数据挖掘算法比较研究[A];12省区市机械工程学会2006年学术年会湖北省论文集[C];2006年
9 李怡凌;马亨冰;;一种基于本体的关联规则挖掘算法[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
10 盛立;刘希玉;高明;;基于粗糙集理论的数据挖掘算法研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
中国博士学位论文全文数据库 前4条
1 陈云开;基于粗糙集和聚类的数据挖掘算法及其在反洗钱中的应用研究[D];华中科技大学;2007年
2 张静;基于粗糙集理论的数据挖掘算法研究[D];西北工业大学;2006年
3 沙朝锋;基于信息论的数据挖掘算法[D];复旦大学;2008年
4 梁瑾;模糊粗糙单调数据挖掘算法及在污水处理中应用研究[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙孝萍;基于聚类分析的数据挖掘算法研究[D];西南石油学院;2002年
2 亢建波;数据挖掘算法在电力生产决策中的研究与应用[D];华北电力大学(河北);2005年
3 阿斯力别克(Kutlumuratov Assylbek);流数据挖掘算法在金融领域的应用研究[D];华南理工大学;2012年
4 国琳;基于云数据库的几种数据挖掘算法研究与实现[D];吉林大学;2013年
5 程建星;数据挖掘算法的改进及其在入侵检测中的应用[D];暨南大学;2008年
6 黎敏;数据挖掘算法研究与应用[D];大连理工大学;2004年
7 曹聪;云计算支持下的数据挖掘算法及其应用[D];广州大学;2012年
8 曹洁;基于案例推理的数据挖掘算法搜索策略的研究[D];太原理工大学;2007年
9 颜巍;基于云平台的数据挖掘算法的研究与实现[D];电子科技大学;2013年
10 秦海翔;云计算环境下的数据挖掘算法研究[D];陕西师范大学;2014年
中国重要报纸全文数据库 前1条
1 ;选择合适的数据挖掘算法[N];计算机世界;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978