收藏本站
《电子科技大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

数据挖掘算法分析及其并行模式研究

佘春东  
【摘要】:数据挖掘(DM)就是从大型数据集中抽取知识,其目的是发现深藏在一般数据之中的有用模式。本文介绍了DM的任务和方法,总结了DM的研究现状,指出关联规则发现和复杂数据挖掘是DM领域的研究热点。由于可利用的数据规模太大以及其多维的本征,使得对开发高效的、可扩展的并行算法的需求日益增强。然而,设计这样的算法是很具挑战性的。 数据挖掘的一个重要方面是关联规则的挖掘。挖掘关联规则的算法大致有两类:一类是基于Apriori的,另一类无需产生候选集,而前者在进行频繁项目集计数时需要产生候选集。本文在深入研究现有算法的基础上,对其中具有较好效率和可扩展性的并行算法——IDD和HD算法,引入近似算法,有效地解决了算法中一个非常重要的问题:候选项目集在各个处理器节点之间的划分问题,从而尽可能使得各节点负载平衡,最终达到提高算法效率的目的。文中给出了两种近似算法及其性能证明,其一是在线算法,其二为离线算法,并对改进算法进行了复杂性分析。 对于无需产生候选集的算法。本文分析了高效的FP-growth算法在共享存储体系结构下,并行建立频繁模式树和并行挖掘频繁项目集的实现方法,指出了算法存在由于任务分配不均而导致处理器之间负载不均衡的缺陷。基于此,本文提出了一种动态负载平衡机制,实验数据表明:采用新调度策略的并行算法,其效率有明显的提高。 序列模式发现在DM领域的地位越来越重要。以基因分析为例,其中许多重要的知识发现任务需要对DNA和蛋白质序列进行分析。这类任务中最耗时的操作是计算序列数据库中所有子序列(称为序列模式)的发生频度。发现序列模式的算法主要有三类。其中基于投影树的频繁模式发现算法在性能上明显优于其它算法,但仍然需要大量的计算时间。于是我们基于投影树算法,给出了其数据并行模式(DPF)和任务并行模式(TPF),接着进行了算法的复杂性分析。同时,理论推导表明:DPF具有一定的可扩展性,TPF具有较好的可扩展性。实验数据揭示:这些算法都能获得较好的加速比,而且任务并行模式具有更好的性能。 WP=6 针对图像数据预处理中的数据压缩和特征提取两个重点,介绍一种基于连续Hopfield神经网络的非数值并行算法应用于图像数据挖掘的聚类预处理过程。在实现数据聚类的同时,达到对图像矢量量化压缩的目的。而矢量量化压缩的过程,实际上又可以把最终得到的码书看成是提取一幅图像的特征向量(矢量)组的过程。我们的工作重点在于在对图像数据进行数据挖掘之前,先对之进行预处理,通过数据压缩,并把压缩过程和图像的特征提取联系起来,达到简化图像表示的目的,从而为下一步的处理(多媒体数据挖掘处理)提供支持。
【学位授予单位】:电子科技大学
【学位级别】:博士
【学位授予年份】:2004
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 王兴鹏,沙金;利用Apriori算法进行序列模式挖掘[J];现代计算机;2002年10期
2 邹翔,张巍,蔡庆生,王清毅;大型数据库中的高效序列模式增量式更新算法[J];南京大学学报(自然科学版);2003年02期
3 王卉;张红君;;关联挖掘研究综述[J];软件导刊;2009年03期
4 吴卫华,袁宁;基于序列模式的关联规则Apriori算法的研究与优化[J];山东机械;2003年05期
5 宋世杰,胡华平,胡笑蕾;关联规则和序列模式算法在入侵检测系统中的应用[J];成都信息工程学院学报;2004年01期
6 杨学兵,刘胜军,蔡庆生;一种实时过程控制中的数据挖掘算法研究[J];计算机应用;1999年09期
7 胡笑蕾,胡华平,宋世杰;数据挖掘算法在入侵检测系统中的应用[J];计算机应用研究;2004年07期
8 张兵,聂永红,林士敏;NPSP:一种高效的序列模式增量挖掘算法[J];广西师范大学学报(自然科学版);2004年04期
9 龚惠群,黄超,彭江平;具有双时间维约束的股票序列模式挖掘[J];计算机工程;2003年20期
10 郭跃斌;翟延富;董祥军;;序列模式的关联规则在彩票分析中的应用研究[J];山东轻工业学院学报(自然科学版);2008年01期
中国重要会议论文全文数据库 前10条
1 王元元;曾建潮;谭瑛;;基于并行计算模型的并行微粒群算法的性能分析[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
2 王轶;席裕庚;;并行的极点配置算法及其新构想[A];1994年中国控制会议论文集[C];1994年
3 杜云飞;王攀峰;富弘毅;周海芳;杨学军;;矩阵LU分解的容错并行算法设计与实现[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
4 曹淑瑛;郭圣权;樊水康;;并行极点配置算法探讨[A];1995年中国控制会议论文集(下)[C];1995年
5 王韶娟;曾国荪;;分形维数的一个并行算法[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
6 陈宁涛;王能超;施保昌;;生物多序列比对的并行算法[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
7 孙明珠;王鹏;邱枫;杨玉良;;自洽场理论的实空间求解方法的并行算法以及在嵌段共聚物相分离中的应用[A];2005年全国高分子学术论文报告会论文摘要集[C];2005年
8 李朝鹏;李肯立;;基于分层聚类的并行数据预处理算法[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
9 姜弘道;余天堂;;有限元并行分析的进展——第九届全国结构工程学术会议特邀报告[A];第九届全国结构工程学术会议论文集第Ⅰ卷[C];2000年
10 张红虎;吴硕贤;;声学辐射度方法的并行实现[A];第十届全国噪声与振动控制工程学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 ;并行算法研究进展[N];中国计算机报;2004年
2 李讯 特约记者 刘程 本报记者 于莘明;银河有颗闪亮的星[N];科技日报;2005年
3 ;名师上讲台:每堂课都是精心编排的演出[N];科技日报;2006年
4 陈文光 郑纬民;高性能计算的三大研究领域[N];计算机世界;2006年
5 清华大学计算机系 薛巍;电网仿真考验高性能计算[N];计算机世界;2006年
6 曙光信息产业有限公司研发中心 温鑫;并行计算软件开发概述[N];中国计算机报;2007年
7 蔡建生;跨国公司为什么会“出事”?[N];中国经营报;2004年
8 英特尔微处理器技术实验室主任工程师 Anwar Ghuloum;并行编程为什么这么难?[N];中国计算机报;2007年
9 本报记者 赵波 本报特约记者 刘程 本报通讯员 章立丁;一位巾帼学者的无悔征程[N];解放军报;2005年
10 新华社记者 奚启新 本报记者 廖文根;三次选择 无怨无悔[N];人民日报;2005年
中国博士学位论文全文数据库 前10条
1 佘春东;数据挖掘算法分析及其并行模式研究[D];电子科技大学;2004年
2 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
3 韩丛英;若干优化问题的并行算法研究[D];上海交通大学;2008年
4 周杰;合成孔径雷达数据处理应用的细粒度并行算法与结构[D];国防科学技术大学;2010年
5 汤春蕾;交易序列数据挖掘研究[D];复旦大学;2011年
6 白洪涛;基于GPU的高性能并行算法研究[D];吉林大学;2010年
7 谭国真;时变、随机网络最优路径算法及其应用研究[D];大连理工大学;2002年
8 王建;并行最优化算法与软件设计及数值软件移植[D];中国科学院研究生院(软件研究所);2005年
9 郭荣祥;基于VEGA网格的Dixon结式分布式计算[D];中国科学院研究生院(成都计算机应用研究所);2006年
10 仝辉;稀疏矩阵积和式与积和多项式的并行算法[D];清华大学;2006年
中国硕士学位论文全文数据库 前10条
1 辛师勃;并行信号处理系统研究[D];南京理工大学;2004年
2 吴青;基于地理信息系统的配电网优化规划的研究[D];广西大学;2004年
3 刘淼;基于平衡分割的并行序列比对[D];西安电子科技大学;2007年
4 潘海琳;高拱坝体形优化决策系统研究[D];河海大学;2006年
5 焦建英;求解微分方程的区域分解两重网格算法[D];西安理工大学;2007年
6 游聪伟;基于GPU平台的KLU并行算法的研究:对角线块的LU分解[D];内蒙古大学;2011年
7 于战华;跨声速欧拉方程并行算法研究及应用[D];南京航空航天大学;2004年
8 平晓慧;最短路径问题的并行算法研究[D];大连理工大学;2006年
9 孙超;快速分形图像压缩并行算法研究与实现[D];曲阜师范大学;2011年
10 彭强;基于并行Boost图库的单源最短路径并行算法的研究[D];华南理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026