收藏本站
《浙江工商大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

云环境下的关联规则挖掘算法研究

吴永胜  
【摘要】:随着信息技术的突飞猛进,特别是计算机硬件性能的不断提高,人们收集、存储、传输的数据量已经达到海量级。从海量数据中提炼出有用信息是一项富有挑战性的任务,也正是数据挖掘这门学科的主要目的。数据挖掘需要依赖高性能的挖掘算法和稳定的软件平台。 传统的挖掘算法大部分采用串行设计,考虑的主要是节省内存开销,随着“大数据时代”来临,依赖于单机工作的传统挖掘技术已无法有效处理日渐频繁的挖掘请求和日益增长的数据量。 云计算应运而生,作为一种新兴的基于互联网的计算手段,它使得用户可以像使用水电资源一样使用计算和存储资源。将云计算运用到数据挖掘,可以充分利用其分布式的优势处理“大数据”。Apache Hadoop是一款开源软件,实现了包括分布式文件系统HDFS和MapReduce框架在内的云计算软件平台和基础架构,是云计算技术中的重要组成部分,目前已成为工业界和学术界进行云计算应用和研究的标准平台。 本文首先分析了Apriori、FP-growth、Eclat等传统关联规则挖掘算法的设计思想、优缺点,然后剖析了Hadoop平台的架构和MapReduce的运行机制。在此基础上,主要完成以下工作: 1、分析了Apriori算法在MapReduce框架下的并行化版本,即SPC/DPC算法的设计和优缺点;分析了FP-growth算法在MapReduce框架下的并行化版本,即PFP算法的设计和优缺点。 2、提出并实现了Eclat算法在MapReduce框架下的并行化版本,即Peclat,分别有宽度优先与深度优先两种版本。 3、提出并实现了纵向表示法混用策略,克服了传统Eclat算法只能使用一种纵向格式的缺陷,并将此策略应用到Peclat算法中。 4、提出并实现了剪枝和动态排序,进一步改进了Peclat的搜索效率。 5、设计完整的实验证明Peclat算法的高效性和其采用的混用策略与搜索策略的有效性。
【学位授予单位】:浙江工商大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13

免费申请
【参考文献】
中国期刊全文数据库 前1条
1 刘君强,孙晓莹,王勋,潘云鹤;挖掘最大频繁模式的新方法[J];计算机学报;2004年10期
【共引文献】
中国期刊全文数据库 前10条
1 秦如新;田英杰;陈静;邓乃扬;张海斌;;双聚类的关联规则挖掘方法[J];北京工业大学学报;2009年04期
2 丁艳辉;王洪国;高明;谷建军;;A New Parallel Algorithm for Mining Association Rules[J];Journal of DongHua University;2006年06期
3 肖菲;;数据挖掘在证券业务分析系统中的应用[J];电脑开发与应用;2009年06期
4 吴华瑞;张凤霞;赵春江;;一种多重最小支持度关联规则挖掘算法[J];哈尔滨工业大学学报;2008年09期
5 韩立毛;鞠时光;朱金伟;;用于挖掘TCM-FP树中维间最大频繁项集的算法[J];江南大学学报(自然科学版);2010年02期
6 刘君强;孙晓莹;潘云鹤;;关联规则挖掘技术研究的新进展[J];计算机科学;2004年01期
7 李庆华;王卉;蒋盛益;;挖掘最大频繁项集的并行算法[J];计算机科学;2004年12期
8 马丽生;邓辉文;齐逸;;一种新的最大频繁项目集挖掘算法[J];计算机应用;2006年11期
9 马丽生;姚光顺;杨传健;;基于改进FP-tree的最大频繁项目集挖掘算法[J];计算机应用;2012年02期
10 陈康;;基于Eclat算法的图书推荐系统仿真[J];计算机仿真;2010年09期
中国重要会议论文全文数据库 前1条
1 Lei Chen;;The Research of Data Mining Algorithm Based on Association Rules[A];2012年计算机应用与系统建模国际会议论文集[C];2012年
中国博士学位论文全文数据库 前10条
1 董俊;基于KDD的领域本体构建若干关键问题研究[D];南京邮电大学;2011年
2 张小刚;关联规则挖掘及其在复杂工业过程控制中的应用研究[D];湖南大学;2002年
3 李学明;计算机数据的关联规则挖掘理论和算法研究[D];重庆大学;2003年
4 刘君强;海量数据挖掘技术研究[D];浙江大学;2003年
5 陈莉;KDD中的几个关键问题研究[D];西安电子科技大学;2003年
6 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
7 王卉;最大频繁项集挖掘算法及应用研究[D];华中科技大学;2004年
8 兰秋军;金融时间序列隐含模式挖掘方法及其应用研究[D];湖南大学;2005年
9 王喆;商务数据中的关联和聚类算法研究[D];吉林大学;2005年
10 刘亚波;关联规则挖掘方法的研究及应用[D];吉林大学;2005年
中国硕士学位论文全文数据库 前10条
1 唐松;基于数据挖掘的高校评教系统设计与实现[D];电子科技大学;2010年
2 王玉荣;关联规则挖掘算法在大数据集上的应用研究[D];江南大学;2011年
3 秦逞;基于前缀树Tire的关联规则挖掘算法研究[D];北京交通大学;2011年
4 杨春莹;基于数据挖掘的汽车整车方案设计决策模型的研究[D];武汉理工大学;2011年
5 宋进征;直接挖掘无冗余规则的关联分类[D];兰州大学;2011年
6 陶善旗;基于Snort入侵检测系统关联规则挖掘的研究与实现[D];南京航空航天大学;2009年
7 徐志侠;并行Apriori算法的性能优化技术研究[D];哈尔滨工业大学;2010年
8 朱嗣珍;基于FP-tree的多层关联规则挖掘算法的研究[D];西安科技大学;2011年
9 俞安琪;仿真数据并行分布式挖掘算法研究[D];哈尔滨工业大学;2011年
10 于利霞;天津市城建服务热线的数据分析系统研究[D];天津大学;2012年
【相似文献】
中国期刊全文数据库 前10条
1 陈洪波;徐晓蓉;;《算法分析与设计》课程教学改革研究[J];福建电脑;2008年08期
2 李玲娟;张睿;;数据泄漏防御算法的研究[J];计算机应用研究;2009年11期
3 王昊;;Raymond算法分析与改进[J];科技创新与应用;2013年03期
4 赵继;;最佳冗余设计的优化算法[J];计算机工程与应用;1988年06期
5 王鹏;王雪飞;包向辉;;关于车辆优化调度的网络算法分析[J];信息与电脑(理论版);2013年08期
6 何秀青,何聚厚,王家华;一种改进的点定位算法[J];西安石油学院学报(自然科学版);2002年03期
7 石一辉;易攀;张承学;;快速开方算法在微控制器上的实现[J];计算机技术与发展;2007年04期
8 黄翰;郝志峰;吴春国;秦勇;;蚁群算法的收敛速度分析[J];计算机学报;2007年08期
9 刘剑;陈建;邬连学;;一种数字PID控制算法分析[J];承德石油高等专科学校学报;2007年03期
10 李占新;;算法的经验分析[J];电脑知识与技术;2008年20期
中国重要会议论文全文数据库 前10条
1 俞洋;田亚菲;;一种新的变步长LMS算法及其仿真[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
2 周颢;刘振华;赵保华;;构造型的D~2FA生成算法[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年
3 赖桃桃;冯少荣;张东站;;一种基于划分和密度的快速聚类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
4 刘远新;邓飞其;罗艳辉;舒添慧;;ERP柔性平台下物流运输配送系统算法分析[A];第二十六届中国控制会议论文集[C];2007年
5 王树西;白硕;姜吉发;;模式合一的“减首去尾”算法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 王万青;张晓辉;;改进的A~*算法的高效实现[A];2009全国测绘科技信息交流会暨首届测绘博客征文颁奖论文集[C];2009年
7 孙焕良;邱菲;刘俊岭;朱叶丽;;IncSNN——一种基于密度的增量聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
8 韩建民;岑婷婷;于娟;;实现敏感属性l-多样性的l-MDAV算法[A];第二十七届中国控制会议论文集[C];2008年
9 张悦;尤枫;赵瑞莲;;利用蚁群算法实现基于程序结构的主变元分析[A];第五届中国测试学术会议论文集[C];2008年
10 王旭东;刘渝;邓振淼;;正弦波频率估计的修正Rife算法及其FPGA实现[A];全国第十届信号与信息处理、第四届DSP应用技术联合学术会议论文集[C];2006年
中国重要报纸全文数据库 前1条
1 科文;VIXD算法分析Web异常[N];中国计算机报;2008年
中国博士学位论文全文数据库 前10条
1 于滨;城市公交系统模型与算法研究[D];大连理工大学;2006年
2 曾国强;改进的极值优化算法及其在组合优化问题中的应用研究[D];浙江大学;2011年
3 肖永豪;蜂群算法及在图像处理中的应用研究[D];华南理工大学;2011年
4 陈耿;面向中观审计的规则发现算法研究[D];东南大学;2005年
5 王维博;粒子群优化算法研究及其应用[D];西南交通大学;2012年
6 鱼亮;蛋白质网络模块结构识别算法研究[D];西安电子科技大学;2011年
7 李玉英;混沌蚂蚁群优化算法及其应用研究[D];北京邮电大学;2009年
8 林川;粒子群优化与差分进化算法研究及其应用[D];西南交通大学;2009年
9 高丽;在线投资组合策略及算法研究[D];华南理工大学;2013年
10 李强;动点聚类算法及其量子化研究[D];浙江大学;2009年
中国硕士学位论文全文数据库 前10条
1 战俊伟;分布式互斥算法最优请求集生成算法时间复杂度优化[D];内蒙古农业大学;2010年
2 许世杰;基于过程优化的蚁群算法研究与应用[D];山东师范大学;2010年
3 汪采萍;蚁群算法的应用研究[D];合肥工业大学;2007年
4 李龙;基于力学模型的在线社会网络社区发现算法的设计与实现[D];华中科技大学;2013年
5 林岚;基于银行家算法的分布式互斥请求集生成算法研究[D];内蒙古农业大学;2012年
6 吴学江;带随机步的可满足性算法[D];贵州大学;2008年
7 庞传军;基于聚类的复杂网络中社团发现算法的研究[D];青岛大学;2009年
8 刘倩雯;人工蜂群算法及其在调度问题中的应用研究[D];北京交通大学;2014年
9 李亚楠;菌群优化算法的研究[D];哈尔滨工业大学;2009年
10 朱林;新型聚类算法在图象处理等方面研究与应用[D];江南大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026