收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于抽样的云频繁项集挖掘算法研究

宛婉  
【摘要】:随着数据收集技术的发展,海量数据时代已经到来。当今社会商业竞争异常激烈,人们迫切希望从海量数据中,提取有用的信息以帮助进行商业决策。但是,传统的数据分析和数据挖掘技术在处理海量数据时,时间和空间的代价过大,很难满足人们的需求。例如,数据挖掘中传统的频繁项集挖掘需要多次扫描数据集,消耗大量时间;还需要存储大量的候选项集,消耗大量内存。 数据收集技术发展的同时,海量数据处理技术也以高并发、低成本的处理优势高速发展。近几年,以Hadoop生态系统发展最具代表性。Hadoop项目主要由两部分组成:HDFS和mapreduce,它们分别是GoogleFile System和Google MapReduce的开源实现。Hadoop分布式框架主要是以廉价的商业机器为计算节点构成云平台,达到高效处理海量数据的目的。 将数据挖掘和Hadoop框架有机结合,利用Hadoop优秀的海量数据处理能力进行挖掘,将会给数据挖掘带来新的活力。本文主要针对数据挖掘中频繁项集挖掘和Hadoop框架相结合,做了以下工作: (1)对Hadoop平台进行深入的研究和分析。Hadoop平台的最核心的两个部分是:用于海量数据存储的HDFS分布式文件系统和用于数据处理的Mapreduce并行编程框架。两者相辅相成,构成了Hadoop分布式框架。 (2)为了进一步提高频繁项集挖掘效率,提出了一种基于Hadoop平台的并行抽样算法。这种算法利用mapreduce编程框架,单次扫描海量数据即可实现随机抽样。在抽样的过程中,还可以完成对数据的清理工作。 (3)对传统频繁项集挖掘算法进行深入的研究后,提出了一种基于抽样的频繁项集并行发现算法。该算法基于Hadoop平台,充分发挥其处理海量数据的优势,实验证明该算法具有良好的挖掘性能。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 黄澍庄;;频繁项集挖掘算法分析与比较[J];德州学院学报;2005年06期
2 章志明;黄龙军;余敏;黄明和;;一种动态的频繁项集挖掘算法[J];计算机工程;2006年24期
3 王朝辉;王婷婷;;一种快速的频繁项集挖掘算法[J];贵州工业大学学报(自然科学版);2006年06期
4 王爱平;王占凤;陶嗣干;燕飞飞;;数据挖掘中常用关联规则挖掘算法[J];计算机技术与发展;2010年04期
5 刘芝怡;尹飞鸿;;基于FP-矩阵的频繁项集挖掘算法[J];中国制造业信息化;2011年15期
6 谈恒贵;王文杰;李克双;;频繁项集挖掘算法综述[J];计算机仿真;2005年11期
7 才科扎西;黄景廉;;基于前缀树的高效频繁项集挖掘算法[J];计算机工程;2010年04期
8 王伟勤;钟敬堂;;对Apriori算法的一种改进[J];佛山科学技术学院学报(自然科学版);2007年02期
9 徐峰;;基于二进制表示的频繁项集挖掘算法[J];现代计算机(专业版);2008年04期
10 马强;;基于Apriori算法的改进算法[J];电脑开发与应用;2010年02期
11 刘莹;郭福亮;;基于数组的关联规则挖掘算法[J];计算机与数字工程;2006年01期
12 杜跃;王治和;景永霞;;基于数组的关联规则挖掘算法[J];甘肃联合大学学报(自然科学版);2007年03期
13 段季芳;梁雪芳;别荣芳;林定移;;基于免疫算法的频繁项集挖掘[J];北京师范大学学报(自然科学版);2009年02期
14 顾红其;;关联挖掘Apriori算法的研究与应用[J];计算机与信息技术;2009年09期
15 左向科;邢永康;王嵘;;关联规则挖掘算法及优化策略研究[J];微处理机;2009年05期
16 顾红其;;基于Apriori的改进挖掘算法G_Apriori研究[J];现代计算机(专业版);2010年09期
17 章志明;黄龙军;余敏;;一种基于矩阵的动态频繁项集挖掘算法[J];计算机工程与应用;2006年32期
18 林克明;陈淑珍;;一种适用于中小数据集的关联规则挖掘算法[J];计算机与数字工程;2006年11期
19 王安;仇德成;安云峰;王继伟;;一种改进的基于关系矩阵的关联规则快速挖掘算法[J];现代电子技术;2007年03期
20 郭伟;叶德谦;;改进的基于FP-tree的频繁项集挖掘算法[J];计算机工程与应用;2007年19期
中国重要会议论文全文数据库 前10条
1 陈晓云;李龙杰;马志新;白伸伸;王磊;;AFP-Miner:一种新高效的频繁项集挖掘算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
2 刘马金;王鹏;汪卫;;一种轮转的数据流频繁项挖掘算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
3 杨晓明;王晨;汪卫;张守志;施伯乐;;频繁项集的精简表达与还原问题研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 沈向余;李伟华;;几种关联规则挖掘算法的分析[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 温磊;李敏强;;基于有向项集图的频繁项集增量更新挖掘算法[A];2004中国控制与决策学术年会论文集[C];2004年
6 温磊;牛东晓;何永贵;;基于权重约束的频繁项集挖掘算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
7 郭云峰;张集祥;;一种基于位向量的关联规则挖掘算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
8 杨子良;陶宏才;;一种基于向量运算的频繁项集快速挖掘算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
9 杨仕博;贺彦琨;马志新;;一种基于极大完全子图的最大频繁项集并行挖掘算法[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
10 王洪利;冯玉强;;频繁项集挖掘算法Apriori的改进研究[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 屠莉;流数据的频繁项挖掘及聚类的关键技术研究[D];南京航空航天大学;2009年
2 毛伊敏;数据流频繁模式挖掘关键算法及其应用研究[D];中南大学;2011年
3 王卉;最大频繁项集挖掘算法及应用研究[D];华中科技大学;2004年
4 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
5 叶飞跃;关联规则及其元规则挖掘技术研究[D];南京航空航天大学;2006年
6 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
7 王述云;数据流频繁项挖掘与聚类分析的研究[D];复旦大学;2008年
8 李力;数据挖掘方法研究及其在中药复方配伍分析中的应用[D];西南交通大学;2003年
9 马海兵;频繁模式挖掘相关技术研究[D];复旦大学;2005年
10 牛成林;增量数据挖掘及其在电站运行优化中的理论研究及应用[D];华北电力大学(北京);2010年
中国硕士学位论文全文数据库 前10条
1 陈力捷;数据流频繁项挖掘系统的研究和实现[D];浙江大学;2007年
2 刘卫;基于剪枝概念格模型的频繁项集表示及挖掘研究[D];合肥工业大学;2007年
3 李辉;数据流上的频繁项集挖掘算法研究[D];北京交通大学;2007年
4 王涛;关联规则算法及并行化研究[D];河北大学;2006年
5 陈凯;关联规则挖掘算法研究[D];西南交通大学;2005年
6 龚舒;桥吊动态机械性能参数的统计特征分析及关联规则挖掘[D];上海海事大学;2005年
7 宛婉;基于抽样的云频繁项集挖掘算法研究[D];合肥工业大学;2013年
8 孙茜;基于多媒体空间数据库的时变模式挖掘[D];四川大学;2006年
9 张小彬;数据流中频繁项集挖掘算法及其应用研究[D];五邑大学;2009年
10 王春丽;基于频繁项集的互补替代关系挖掘算法[D];郑州大学;2011年
中国重要报纸全文数据库 前10条
1 孙富春 李磊;电子政务中的数据挖掘[N];计算机世界;2001年
2 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
3 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
4 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
5 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
6 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
7 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
8 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
9 张立明;数据挖掘之道[N];网络世界;2003年
10 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978