收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于MapReduce的数据挖掘算法并行化研究与应用

孙兵率  
【摘要】:随着大数据时代的到来,数据的规模呈现出了暴增趋势、数据形式也变得多样化,新的变化迫使传统数据挖掘技术面临大数据压力的重大挑战。许多传统数据挖掘算法只能适用于小规模数据的挖掘处理,随着数据规模的增大,它们逐步暴露出内存不足、计算效率低等性能瓶颈。将Hadoop Map Reduce应用于数据挖掘领域,研究传统数据挖掘算法的Map Reduce并行化改进与设计,实现低成本高性能的分布式并行挖掘,不但能够满足大数据的分析需求,对数据挖掘的持续发展也有着重要意义。本文通过深入研究Hadoop的关键技术Map Reduce和分布式文件系统HDFS的核心设计思想和实现,提出一种基于Map Reduce的数据挖据算法并行化实现模型。根据此模型,又以线性回归分析和关联规则分析为研究对象,主要做了如下工作:(1)构建一种基于Map Reduce的数据挖掘算法并行化实现模型。(2)针对回归分析中,传统的线性回归分析算法和局部加权线性回归算法处理大规模数据时的性能瓶颈,提出一种改进算法——KNN-LWLR算法,该改进算法具有可并行化的特点。结合本文构建的数据挖掘算法Map Reduce并行化实现模型,在Hadoop平台上实现并行化,并对该并行算法进行了性能试验分析,结果表明该并行算法具有很好的可扩展性和加速比。(3)针对关联规则分析中,Apriori算法和FP-Growth算法在挖掘海量规模数据频繁项集时存在的性能瓶颈,提出一种FP-Growth算法“并行化改进策略”。结合FP-Growth算法“分而治之”的核心思想和数据挖掘算法并行化实现模型,在Hadoop平台实现了频繁项集的并行挖掘。并在输出阶段,对每个项进行“规约合并处理”改进,仅输出包含某项的前K个频繁项集,提高了海量数据决策价值的有效性。(4)将改进的并行FP-Growth算法应用于Web文本挖掘,挖掘海量规模的Web文档中频繁关联词条,并在Hadoop分布式计算平台上对多组规模不同的数据集进行多节点测试,测试表明改进的并行FP-Growth算法适用于大规模数据的处理。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 文俊浩,胡显芝,何光辉,徐玲;小波在数据挖掘算法中的运用[J];重庆大学学报(自然科学版);2004年12期
2 邹志文,朱金伟;数据挖掘算法研究与综述[J];计算机工程与设计;2005年09期
3 赵泽茂,何坤金,胡友进;基于距离的异常数据挖掘算法及其应用[J];计算机应用与软件;2005年09期
4 胡作霆;董兰芳;王洵;;图的数据挖掘算法研究[J];计算机工程;2006年03期
5 宋中山;吴立锋;;增量数据挖掘算法在区域交通管理中的应用[J];武汉理工大学学报(交通科学与工程版);2006年03期
6 哈金才;;数据挖掘算法的评价标准与方法[J];微电子学与计算机;2006年12期
7 修雅慧;邓文新;;数据挖掘算法评分函数研究[J];计算机与现代化;2008年09期
8 张美虎;;神经网络数据挖掘算法的研究与应用[J];扬州职业大学学报;2009年02期
9 李春生;单继辉;杨冬黎;;基于规则的数据挖掘算法选择机制研究[J];长江大学学报(自然科学版)理工卷;2009年03期
10 喻云峰;;数据挖掘算法的分析与研究[J];科技广场;2010年09期
11 吴昌钱;;信用分析中常用数据挖掘算法[J];硅谷;2011年06期
12 王海涛;陈树宁;;常用数据挖掘算法研究[J];电子设计工程;2011年11期
13 张俊鹏;贺建峰;马磊;;基于最优风险与预防模型的医疗数据挖掘算法[J];计算机工程;2011年22期
14 崔斌;吴东超;;数据挖掘算法及其在教学管理中的应用[J];铜陵职业技术学院学报;2011年04期
15 孙小杰;;一种自适应混合压缩的数据挖掘算法[J];黑龙江科技信息;2012年34期
16 曾磊;;浅谈数据挖掘算法研究与实现[J];电脑知识与技术;2012年36期
17 王晓艳;;数据挖掘算法的分析探讨[J];硅谷;2014年02期
18 丁崧,黄上腾;预测性模型中的一种数据挖掘算法[J];计算机工程与应用;2001年02期
19 李别;基于神经网络的数据挖掘算法[J];广东技术师范学院学报;2005年04期
20 王元志;王芳;;数据挖掘算法研究与综述[J];电脑知识与技术;2006年26期
中国重要会议论文全文数据库 前10条
1 贺炜;邢春晓;潘泉;;因果不完备条件下的数据挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 刘玲;张兴会;;基于神经网络的数据挖掘算法研究[A];全国第二届信号处理与应用学术会议专刊[C];2008年
3 陈曦;曾凡锋;;数据挖掘算法在风险评估中的应用[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
4 郭新宇;梁循;;大型数据库中数据挖掘算法SLIQ的研究及仿真[A];2004年中国管理科学学术会议论文集[C];2004年
5 张沫;栾媛媛;秦培玉;罗丹;;基于聚类算法的多维客户行为细分模型研究与实现[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
6 潘国林;杨帆;;数据挖掘算法在保险客户分析中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
7 张乃岳;张力;张学燕;;基于字段匹配的CRM数据挖掘算法与应用[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
8 祖巧红;陈定方;胡吉全;;客户分析中的数据挖掘算法比较研究[A];12省区市机械工程学会2006年学术年会湖北省论文集[C];2006年
9 李怡凌;马亨冰;;一种基于本体的关联规则挖掘算法[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
10 盛立;刘希玉;高明;;基于粗糙集理论的数据挖掘算法研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
中国博士学位论文全文数据库 前4条
1 陈云开;基于粗糙集和聚类的数据挖掘算法及其在反洗钱中的应用研究[D];华中科技大学;2007年
2 张静;基于粗糙集理论的数据挖掘算法研究[D];西北工业大学;2006年
3 沙朝锋;基于信息论的数据挖掘算法[D];复旦大学;2008年
4 梁瑾;模糊粗糙单调数据挖掘算法及在污水处理中应用研究[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙孝萍;基于聚类分析的数据挖掘算法研究[D];西南石油学院;2002年
2 亢建波;数据挖掘算法在电力生产决策中的研究与应用[D];华北电力大学(河北);2005年
3 阿斯力别克(Kutlumuratov Assylbek);流数据挖掘算法在金融领域的应用研究[D];华南理工大学;2012年
4 国琳;基于云数据库的几种数据挖掘算法研究与实现[D];吉林大学;2013年
5 程建星;数据挖掘算法的改进及其在入侵检测中的应用[D];暨南大学;2008年
6 黎敏;数据挖掘算法研究与应用[D];大连理工大学;2004年
7 曹聪;云计算支持下的数据挖掘算法及其应用[D];广州大学;2012年
8 曹洁;基于案例推理的数据挖掘算法搜索策略的研究[D];太原理工大学;2007年
9 颜巍;基于云平台的数据挖掘算法的研究与实现[D];电子科技大学;2013年
10 秦海翔;云计算环境下的数据挖掘算法研究[D];陕西师范大学;2014年
中国重要报纸全文数据库 前1条
1 ;选择合适的数据挖掘算法[N];计算机世界;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978