收藏本站
《电子科技大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

数据挖掘算法分析及其并行模式研究

佘春东  
【摘要】:数据挖掘(DM)就是从大型数据集中抽取知识,其目的是发现深藏在一般数据之中的有用模式。本文介绍了DM的任务和方法,总结了DM的研究现状,指出关联规则发现和复杂数据挖掘是DM领域的研究热点。由于可利用的数据规模太大以及其多维的本征,使得对开发高效的、可扩展的并行算法的需求日益增强。然而,设计这样的算法是很具挑战性的。 数据挖掘的一个重要方面是关联规则的挖掘。挖掘关联规则的算法大致有两类:一类是基于Apriori的,另一类无需产生候选集,而前者在进行频繁项目集计数时需要产生候选集。本文在深入研究现有算法的基础上,对其中具有较好效率和可扩展性的并行算法——IDD和HD算法,引入近似算法,有效地解决了算法中一个非常重要的问题:候选项目集在各个处理器节点之间的划分问题,从而尽可能使得各节点负载平衡,最终达到提高算法效率的目的。文中给出了两种近似算法及其性能证明,其一是在线算法,其二为离线算法,并对改进算法进行了复杂性分析。 对于无需产生候选集的算法。本文分析了高效的FP-growth算法在共享存储体系结构下,并行建立频繁模式树和并行挖掘频繁项目集的实现方法,指出了算法存在由于任务分配不均而导致处理器之间负载不均衡的缺陷。基于此,本文提出了一种动态负载平衡机制,实验数据表明:采用新调度策略的并行算法,其效率有明显的提高。 序列模式发现在DM领域的地位越来越重要。以基因分析为例,其中许多重要的知识发现任务需要对DNA和蛋白质序列进行分析。这类任务中最耗时的操作是计算序列数据库中所有子序列(称为序列模式)的发生频度。发现序列模式的算法主要有三类。其中基于投影树的频繁模式发现算法在性能上明显优于其它算法,但仍然需要大量的计算时间。于是我们基于投影树算法,给出了其数据并行模式(DPF)和任务并行模式(TPF),接着进行了算法的复杂性分析。同时,理论推导表明:DPF具有一定的可扩展性,TPF具有较好的可扩展性。实验数据揭示:这些算法都能获得较好的加速比,而且任务并行模式具有更好的性能。 WP=6 针对图像数据预处理中的数据压缩和特征提取两个重点,介绍一种基于连续Hopfield神经网络的非数值并行算法应用于图像数据挖掘的聚类预处理过程。在实现数据聚类的同时,达到对图像矢量量化压缩的目的。而矢量量化压缩的过程,实际上又可以把最终得到的码书看成是提取一幅图像的特征向量(矢量)组的过程。我们的工作重点在于在对图像数据进行数据挖掘之前,先对之进行预处理,通过数据压缩,并把压缩过程和图像的特征提取联系起来,达到简化图像表示的目的,从而为下一步的处理(多媒体数据挖掘处理)提供支持。
【学位授予单位】:电子科技大学
【学位级别】:博士
【学位授予年份】:2004
【分类号】:TP311.13

知网文化
【引证文献】
中国硕士学位论文全文数据库 前10条
1 刘娜;基于MapReduce的数据挖掘算法在全国人口系统中的应用[D];首都经济贸易大学;2011年
2 魏晨辉;高端容错计算机故障日志分析系统的设计与实现[D];哈尔滨工业大学;2011年
3 饶亮;改进的Apriori算法在贫困生助学系统中的应用[D];哈尔滨工程大学;2011年
4 李涛;基于FP-Growth关联规则的并行算法分析及其应用研究[D];辽宁工程技术大学;2011年
5 修宏明;性能评估技术及其在电厂SIS中的应用[D];华北电力大学(北京);2006年
6 王荧;并行关联规则算法优化的研究[D];山东科技大学;2007年
7 王艳锋;基于SVM的桥区水域失控船舶航迹对比分析[D];武汉理工大学;2010年
8 丛珊珊;改进的决策树算法在企业培训管理系统中的研究与应用[D];大连交通大学;2012年
9 曹聪;云计算支持下的数据挖掘算法及其应用[D];广州大学;2012年
10 陈锐;基于数据挖掘的Tomcat访问日志分析系统的研究与实现[D];湖北大学;2011年
【共引文献】
中国期刊全文数据库 前10条
1 马帅,唐世渭,杨冬青,王腾蛟,高军;移动环境中的最大移动序列模式挖掘(英文)[J];北京大学学报(自然科学版);2004年03期
2 董辉;方晓;方跃胜;;一种时序关联规则挖掘算法的研究与实现[J];长春工程学院学报(自然科学版);2012年01期
3 黄金;;基于频繁模式的蛋白质序列分类[J];东北农业大学学报;2008年05期
4 任家东;宗俊省;;一种基于规则表达式约束的序列模式增量式挖掘算法[J];燕山大学学报;2007年05期
5 任家东;周晓磊;;一种挖掘序列模式的增量式更新算法[J];燕山大学学报;2007年06期
6 廖志伟,孙雅明;基于事件序列数据挖掘原理的高压输电线系统故障诊断(一)模型与算法[J];电力系统自动化;2004年04期
7 孙雅明,廖志伟;基于事件序列数据挖掘原理的高压输电线系统故障诊断 (二)仿真和容错性能分析[J];电力系统自动化;2004年05期
8 龚振志;胡孔法;达庆利;张长海;;DMGSP:一种快速分布式全局序列模式挖掘算法[J];东南大学学报(自然科学版);2007年04期
9 胡孔法;张长海;陈崚;达庆利;;一种面向物流数据分析的路径序列挖掘算法ImGSP[J];东南大学学报(自然科学版);2008年06期
10 陈景强;翁正秋;;一种基于投影数据库的SPAM算法[J];电脑知识与技术;2010年07期
中国重要会议论文全文数据库 前10条
1 姚伟力;王锡禄;宋俊德;;基于序列模式挖掘的告警相关性分析算法[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
2 单莘;;一种网络告警的增量式情景规则挖掘方法[A];中国通信学会第五届学术年会论文集[C];2008年
3 潘瑾;严勇;王晨;方晨;汪卫;施伯乐;;Chopper:一个高效的有序标号树频繁结构的挖掘算法[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
4 吴先荣;杨冬青;唐世渭;王腾蛟;;基于序列树的告警相关性分析[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 吕静;陈未如;刘俊;Osei Adjei;;并发分支模式挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 吴铁峰;彭宏;张东娜;;一种网络告警的增量挖掘算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 朱永泰;王晨;洪铭胜;汪卫;施伯乐;;ESPM——频繁子树挖掘算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
8 牛兴雯;杨冬青;唐世渭;王腾蛟;;OSAF-tree——可迭代的移动序列模式挖掘及增量更新方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 程银波;司菁菁;;带有间隔约束的序列模式挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 张锐;熊赟;陈越;朱扬勇;;MS-BioSM:一个基于多支持度生物序列模式挖掘算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
中国博士学位论文全文数据库 前10条
1 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
2 李彤岩;基于数据挖掘的通信网告警相关性分析研究[D];电子科技大学;2010年
3 程文聪;面向大规模网络安全态势分析的时序数据挖掘关键技术研究[D];国防科学技术大学;2010年
4 叶红云;面向金融营销问题的个性化推荐方法研究[D];合肥工业大学;2011年
5 朱辉生;基于情节规则匹配的数据流预测研究[D];复旦大学;2011年
6 林冠洲;网络流量识别关键技术研究[D];北京邮电大学;2011年
7 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
8 刘维;生物序列模式挖掘与识别算法的研究[D];南京航空航天大学;2010年
9 杨钤雯;序列模式挖掘方法及Web使用挖掘研究[D];天津大学;2010年
10 马超飞;基于关联规则的遥感数据挖掘与应用[D];中国科学院研究生院(遥感应用研究所);2002年
中国硕士学位论文全文数据库 前10条
1 史文财;省级政务网安全检测系统的设计与实现[D];哈尔滨工程大学;2010年
2 任芳;时间序列数据挖掘研究[D];辽宁师范大学;2010年
3 冯兴祥;关联规则挖掘在高校招生录取中的应用[D];合肥工业大学;2010年
4 陈晶;基于序列模式挖掘算法的入侵检测研究[D];华东师范大学;2011年
5 白霜;DNA序列的最大频繁模式挖掘[D];南昌大学;2010年
6 徐海兰;Web日志挖掘技术在个性化信息推荐中的应用[D];延边大学;2009年
7 石华;基于系统文件特征属性分析的计算机取证研究[D];大连交通大学;2010年
8 严兆斌;序列模式挖掘在公路隧道交通中的应用研究[D];西安电子科技大学;2009年
9 尚军亮;时间序列预测方法及在隧道控制中的应用研究[D];西安电子科技大学;2010年
10 李瑞华;数据挖掘在煤矿安全监测中的应用[D];西安电子科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李现实;钟秋海;;改进决策树算法在企业资源计划系统中的应用[J];北京理工大学学报;2006年02期
2 张晓兔,刘祖源,张乐文;船舶避碰系统的智能化研究综述[J];船舶工程;2000年01期
3 王睿;;关于支持向量机参数选择方法分析[J];重庆师范大学学报(自然科学版);2007年02期
4 孟祥福;马宗民;严丽;张富;;Web数据库查询结果的自动分类方法[J];东北大学学报(自然科学版);2010年02期
5 房国忠;孙杏梅;杨雪;;高校教师综合绩效评价系统设计[J];东北师大学报;2006年03期
6 文巨峰;朱美琳;邢汉承;;面向商务智能应用的分布式数据挖掘系统设计[J];东南大学学报(自然科学版);2005年06期
7 王华秋,王越,曹长修;基于机群结构的关联规则并行挖掘算法[J];重庆大学学报(自然科学版);2004年08期
8 王康,易幼平;关于抗撞桥墩设计与计算问题[J];河北工业大学学报;1997年04期
9 赵伟,杨永增,于卫东,乔方利;长期极值统计理论及其在海洋环境参数统计分析中的应用[J];海洋科学进展;2003年04期
10 戴彤宇,刘伟力,聂武;船撞桥概率分析与预报[J];哈尔滨工程大学学报;2003年01期
中国博士学位论文全文数据库 前10条
1 刘业政;基于粗糙集数据分析的智能决策支持系统研究[D];合肥工业大学;2002年
2 陈莉;KDD中的几个关键问题研究[D];西安电子科技大学;2003年
3 王卉;最大频繁项集挖掘算法及应用研究[D];华中科技大学;2004年
4 刘刚;数据挖掘技术与分类算法研究[D];中国人民解放军信息工程大学;2004年
5 宋卫林;基于最大频繁项目集的数据挖掘关联规则算法研究[D];北京邮电大学;2006年
6 王华秋;并行数据挖掘理论研究与应用[D];重庆大学;2006年
7 张锦;Internet环境下协同工作与数据挖掘研究[D];复旦大学;2004年
8 王磊;支持向量机学习算法的若干问题研究[D];电子科技大学;2007年
9 耿波;桥梁船撞安全评估[D];同济大学;2007年
10 李秀敏;极值统计模型族的参数估计及其应用研究[D];天津大学;2007年
中国硕士学位论文全文数据库 前10条
1 杨海军;基于SOA的ERP系统架构分析与应用[D];山东大学;2011年
2 黄敏凤;数据挖掘技术在高校学生成绩中的应用研究[D];江西师范大学;2011年
3 赵培;关联规则并行采掘算法的研究[D];华中师范大学;2002年
4 庄代波;一种Apriori的改进算法[D];浙江大学;2003年
5 颜雪松;关联规则的并行开采研究[D];中国地质大学;2003年
6 张建明;关联规则挖掘算法及其流程工业应用研究[D];浙江大学;2004年
7 刘秀梅;客户关系管理系统中数据挖掘技术的应用[D];华中师范大学;2004年
8 郑泽莉;高校贫困生问题研究[D];西南师范大学;2004年
9 宾晟;数据挖掘在人口普查数据中的应用[D];青岛大学;2004年
10 齐金鹏;数据挖掘模型可视化研究及其应用实例[D];吉林大学;2004年
【二级引证文献】
中国期刊全文数据库 前1条
1 杨润芝;肖卫青;胡开喜;杨昕;王颖;马强;;云计算平台上实现30年气候资料整编的方法[J];计算技术与自动化;2013年03期
中国博士学位论文全文数据库 前1条
1 郑元洲;基于操纵推理与视频检测的船桥主动避碰系统研究[D];武汉理工大学;2012年
中国硕士学位论文全文数据库 前5条
1 张磊;基于高级SQL查询的分布式多维关联规则挖掘算法的研究[D];天津理工大学;2010年
2 吴华平;基于多核处理器的数值算法并行优化究[D];辽宁师范大学;2011年
3 胡文娟;高线活套控制系统性能监控的研究[D];上海交通大学;2007年
4 程学安;火电厂锅炉送粉系统寿命预测方法的研究[D];华北电力大学(河北);2010年
5 薛文娟;基于层次聚类的日志分析技术研究[D];山东师范大学;2013年
【相似文献】
中国期刊全文数据库 前10条
1 丁纪云,蔡春娥;利用构造数据集评定数据挖掘过程的方法[J];湖南广播电视大学学报;2001年02期
2 任承业,罗伟其;校园信息系统中CRM与数据挖掘的结合和应用[J];计算机工程与应用;2003年13期
3 王艳;数据挖掘在数字图书馆中的应用[J];情报科学;2003年02期
4 邵红全,赵茜;用SQL Server2000实现数据挖掘的技术与策略[J];电脑开发与应用;2003年04期
5 耿庆鹏,卢子芳;利用数据挖掘技术实现对电信行业用户欺诈行为的预测[J];电信快报;2003年10期
6 蒋良孝,蔡之华;基于数据仓库的数据挖掘研究[J];计算技术与自动化;2003年03期
7 叶静,蔡之华;遥感图像中的数据挖掘应用概述[J];计算机与现代化;2003年10期
8 黄解军,万幼川,潘和平;银行客户关系管理与数据挖掘的应用[J];计算机工程与设计;2003年07期
9 崔强,朱卫东;基于数据挖掘的铁路机务段成本控制系统[J];铁路计算机应用;2003年01期
10 杨思春;基于数据仓库的数据挖掘技术分析研究[J];微机发展;2003年09期
中国重要会议论文全文数据库 前10条
1 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
2 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
5 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
6 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
7 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
9 王星;谢邦昌;戴稳胜;;数据挖掘在保险业中的应用[A];北京市第十二次统计科学讨论会论文选编[C];2003年
10 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病阴阳类证辨证规范的数据挖掘研究[A];2010中国医师协会中西医结合医师大会摘要集[C];2010年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
中国博士学位论文全文数据库 前10条
1 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
2 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
3 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
4 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
5 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
6 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
7 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
8 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
9 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年
10 余红;网络时政论坛舆论领袖研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
2 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
3 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
4 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
5 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
6 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
7 王浩;数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究[D];华东理工大学;2012年
8 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
9 张煜辉;数据挖掘和SPC在生产过程质量控制中应用研究[D];上海交通大学;2009年
10 刘华敏;数据挖掘在高职院校学生成绩分析中的应用[D];安徽大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026