收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop的海量工程数据关联规划挖掘方法研究

周斌  
【摘要】:近年来,随着高速动车组在我国的快速发展,目前已经积累了海量的历史维护、故障数据,如何利用好数据挖掘技术从历史维护故障数据中挖掘出有效的知识,并且为动车组故障诊断和维护维修提供有效的决策支持,成为一个亟待解决的应用需求。针对动车组历史维护故障数据的知识挖掘问题,从有效利用动车组历史运维数据来指导动车组故障诊断的角度出发,对海量工程数据关联规则挖掘方法进行了深入研究。由于传统的关联规则挖掘算法在处理海量、多维数据集时,在数据挖掘性能上会遇到瓶颈,因此本文选取Hadoop技术作为对频繁模式增长(Frequent Pattern Growth, FP-Growth)算法和Apriori算法进行并行化改进的基本技术。Hadoop是一个开源的分布式计算平台,其核心组成部分是Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)和MapReduce并行编程框架,用户可以在不了解Hadoop内部架构的情况下,方便地开发分布式程序。本文深入研究了现有关联规则挖掘算法的实现形式和不足,结合动车组故障诊断的要求,选取FP-Growth算法和Apriori算法作为动车组海量历史故障数据关联规则挖掘的基本算法。首先提出了利用局部频繁模式树来代替全局频繁模式树的改进的并行FP-Growth算法,该算法在各主要步骤上均实现了并行处理,并且对频繁模式的搜索策略进行了改进。其次,提出了一种改进的并行Apriori多维关联规则挖掘算法,该算法采用迭代的思想,实现了对各阶候选项集挖掘的并行化处理。改进后的算法大大提高了关联规则挖掘的效率,有效地节省了计算空间,挖掘结果很好地保留了故障信息与状态信息之间的关联关系,并且合理去除了无效规则。本文将改进的关联规则挖掘算法应用于动车组历史运维数据关联规则知识获取中去,并相应设计实现了动车组运维数据处理平台原型系统,包括用户认证模块、数据传输模块、数据挖掘模块和用户文件管理模块等。通过对改进算法的具体分析与实际测试,表明本文提出的两个改进的并行算法在动车组故障诊断知识获取过程中具有快速、高效、准确的特点。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王云岚,李增智,屈科文;基于候选项集个数上阶的增量式关联规则更新算法[J];电子学报;2004年05期
2 刘晓玲;李玉忱;;一种不产生候选项集的关联规则挖掘算法[J];山东师范大学学报(自然科学版);2006年01期
3 陆楠,王喆,周春光;基于FP-tree频集模式的FP-Growth算法对关联规则挖掘的影响[J];吉林大学学报(理学版);2003年02期
4 何友全;;基于FP-T的多层关联规则并发挖掘[J];计算机工程;2006年15期
5 祝孔涛;李兴建;王乐;;高效用项集挖掘算法[J];计算机工程与设计;2013年12期
6 刘扬;莫红玉;马垣;;改进的关联规则算法[J];计算机工程与设计;2010年17期
7 周兴斌;迟殿委;;一种Apriori算法的改进[J];南昌大学学报(工科版);2008年02期
8 向程冠;姜季春;陈梅;王翰虎;;AprioriTid算法的改进[J];计算机工程与设计;2009年15期
9 翟霞;刘政宇;;关联规则中Apriori算法的创新研究[J];数字技术与应用;2014年04期
10 张友志;江伟;江晋剑;;一种基于编码的关联规则挖掘算法[J];计算机技术与发展;2008年12期
11 陈强,黄国兴;一种适用于关联规则挖掘的优化的选样算法[J];微型电脑应用;2005年03期
12 施化吉;丁云磊;李星毅;;基于树结构的高效关联规则挖掘算法[J];计算机应用研究;2009年02期
13 黄立勤;柳燕煌;;基于MapReduce并行的Apriori算法改进研究[J];福州大学学报(自然科学版);2011年05期
14 吉根林;韦素云;;分布式环境下约束性关联规则的快速挖掘[J];小型微型计算机系统;2007年05期
15 何友全;;一种双字段交叉索引互联挖掘的新算法[J];计算机工程;2006年07期
16 吴文妹,陈国龙;一种改进的Apriori算法[J];福建电脑;2005年04期
17 郭有强;;关联规则快速聚焦算法研究与实现[J];微电子学与计算机;2008年02期
18 常睿;;Apriori算法的一种改进方法[J];计算机光盘软件与应用;2012年19期
19 刘利峰;吴孟达;;关联规则的快速提取算法[J];计算机工程;2008年05期
20 聂永红;项集间关联规则的挖掘[J];广西工学院学报;2001年01期
中国重要会议论文全文数据库 前1条
1 杜剑峰;李宏;陈松乔;;分布式环境下约束性关联规则的挖掘算法研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国硕士学位论文全文数据库 前6条
1 周斌;基于Hadoop的海量工程数据关联规划挖掘方法研究[D];北京交通大学;2016年
2 周焕银;关联规则候选项支持频度的研究[D];兰州理工大学;2004年
3 魏雪锋;分布式安全关联规则挖掘算法研究[D];哈尔滨工程大学;2005年
4 孙芬芬;海量数据并行挖掘技术研究[D];北京交通大学;2014年
5 姜玫;平均高效用项集挖掘算法研究[D];大连理工大学;2013年
6 张宁;数据挖掘中关联规则的研究与应用[D];长春工业大学;2015年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978