最大频繁项集挖掘算法的研究
【摘要】:随着信息技术尤其是网络技术的快速发展,人们收集、存储和传输数据的能力不断提高,导致数据出现了爆炸性增长。与此形成鲜明对比的是,对人们决策有价值的知识却非常匮乏。知识发现与数据挖掘正是在这一背景下诞生的一门新科学。
关联规则是数据挖掘当前研究的主要模式之一,它用于确定数据集中不同域或属性之间的联系,找出有价值的多个域之间的依赖关系。频繁项集挖掘是生成关联规则的关键步骤,其效率问题是关联规则挖掘中的一大难点和热点。频繁项集挖掘可分为完全频繁项集挖掘、频繁闭项集挖掘和最大频繁项集挖掘三类。论文基于数据集和最大频繁项集的不同表示结构,从剪枝策略、尾项集的项排序策略和超集存在判断方法等角度对最大频繁项集的挖掘问题进行了深入的分析和研究。
位图是—种有效的数据集和项集的表示结构。论文基于位图提出了深度优先挖掘算法DFMfi。算法DFMfi充分利用位图的字节特性,优化了项集的匹配和合并操作,并首次在其中引入了基于局部最大频繁项集的超集存在判断方法。论文证明了算法DFMfi的正确性,并通过实验说明其在运行时间上少于同类算法。
近几年来,数据集的另—种压缩表示结构—FP-Tree结构越来越受到研究者们的青睐,论文第二部分研究基于FP-Tree结构的最大频繁项集挖掘问题,其中使用FP-Tree表示数据集及其投影,并利用MFI-Tree保存已有最大频繁项集。分析和实验说明已有算法中的超集存在判断为耗时操作,针对这种情况,论文在单棵MFI-Tree表示下基于最大频繁项集投影提出一种新的超集存在判断方法,并证明了多棵MFI-Tree表示下存在一种简单的超集存在判断方法,二者均可有效降低超集存在判断的时间开销。相应于两种超集存在判断方法,论文分别提出了算法FPMFI和FIMFI。在算法FIMFI里,论文分析了尾项集的项排序策略对压缩搜索空间的影响,提出了一种高效的、基于FP-Tree和MFI-Tree信息的尾项集项排序策略。通过使用新的前瞻剪枝方法,算法FIMFI拓展了前瞻剪枝的范围,加大了前瞻剪枝成功的可能性,尽可能地压缩了搜索空间。此外,FPMFI算法中的非冗余子树结构是寻求高效数据集压缩结构的一次尝试。实验表明,在稠密数据集上,这两个算法相对于同类算法均具有一定的优越性。其中FIMFI算法比同类算法中性能最优的FPMax~*算法平均快30%-40%。
论文最后提出一种能同时压缩表示数据集和最大频繁项集的新的数据结构—CFP-Tree,基于CFP-Tree结构定义了最大化子集,并提出了CfpMfi算法。通过其与FPMax~*
【关键词】:数据挖掘 关联规则 频繁项集 最大频繁项集 前瞻剪枝 超集存在判断 频繁模式树 最大频繁项集树 组合频繁模式树 【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2005
【分类号】:TP311.13
【DOI】:CNKI:CDMD:1.2006.126836
【目录】:
- 目录5-8
- 图表索引8-9
- 摘要9-11
- ABSTRACT11-13
- 第一章 绪论13-22
- 1.1 数据挖掘技术背景概述13-19
- 1.1.1 数据挖掘技术的兴起13-14
- 1.1.2 数据挖掘的定义和任务14-16
- 1.1.3 数据挖掘的过程和应用16-18
- 1.1.4 数据挖掘技术面临的主要挑战18-19
- 1.2 论文的工作和结构19-22
- 1.2.1 论文的工作20
- 1.2.2 论文的组织结构20-22
- 第二章 关联规则挖掘概述22-39
- 2.1 关联规则挖掘22-28
- 2.1.1 关联规则挖掘的基本概念22-26
- 2.1.2 关联规则的分类26-27
- 2.1.3 关联规则挖掘的研究现状27-28
- 2.2 频繁项集挖掘相关工作28-38
- 2.2.1 完全频繁项集挖掘算法28-31
- 2.2.2 频繁闭项集挖掘算法31-33
- 2.2.3 最大频繁项集挖掘算法33-38
- 2.3 小结38-39
- 第三章 基于单MFI-Tree结构挖掘最大频繁项集39-52
- 3.1 引言39-41
- 3.2 相关知识41-44
- 3.2.1 深度优先搜索策略41-42
- 3.2.2 FP-Tree(Frequent Pattern Tree)结构42-43
- 3.2.3 MFI-Tree(Maximal Frequent Itemsets Tree)结构43-44
- 3.3 基于单MFI-Tree结构的最大频繁项集挖掘算法FPMFI44-48
- 3.3.1 基于最大频繁项集投影的超集存在判断44-46
- 3.3.2 非冗余FP子树46-47
- 3.3.3 算法FPMFI47-48
- 3.4 性能分析与比较48-51
- 3.5 小结51-52
- 第四章 基于位图格式挖掘最大频繁项集52-63
- 4.1 位图数据格式52-53
- 4.2 剪枝策略53-55
- 4.2.1 子集非频繁剪枝(Subset Infrequency Prune)53-54
- 4.2.2 超集频繁剪枝(Superset Frequency Prune)54
- 4.2.3 父等价剪枝(Parent Equivalence Prune)54-55
- 4.3 局部最大频繁项集55-57
- 4.4 基于位图数据格式的最大频繁项集挖掘算法DFMfi57-58
- 4.5 性能分析与比较58-62
- 4.6 小结62-63
- 第五章 基于多MFI-Tree结构挖掘最大频繁项集63-79
- 5.1 引言63-64
- 5.2 相关知识64-65
- 5.2.1 可能扩展项集和频繁扩展项集64
- 5.2.2 多MFI-Tree结构表示最大频繁项集集合相关信息64-65
- 5.3 基于多MFI-Tree结构的最大频繁项集挖掘算法FIMFI65-73
- 5.3.1 剪枝策略66-68
- 5.3.2 尾项集的项排序策略68-69
- 5.3.3 超集存在判断69-71
- 5.3.4 算法FIMFI71-73
- 5.4 性能比较73-77
- 5.5 小结77-79
- 第六章 基于组合FP-Tree结构挖掘最大频繁项集79-97
- 6.1 CFP-Tree(Combined FP-Tree)结构79-82
- 6.1.1 CFP-Tree结构及其性质79-80
- 6.1.2 CFP-Tree构造过程80-82
- 6.2 CfpMfi算法82-85
- 6.2.1 基于CFP-Tree结构的最大频繁项集挖掘算法CfpMfi82-84
- 6.2.2 基于最大化子集的超集存在判断84-85
- 6.2.3 基于最大化子集的尾项集的项排序策略85
- 6.3 性能比较85-96
- 6.3.1 剪枝性能86-91
- 6.3.2 时间性能比较91-93
- 6.3.3 最大内存使用量比较93-96
- 6.4 小结96-97
- 第七章 结论与展望97-100
- 7.1 本文研究工作总结97-98
- 7.2 基于FP-Tree挖掘频繁闭项集98-99
- 7.3 今后工作99-100
- 致谢100-101
- 攻读博士学位期间发表的论文101-102
- 攻读博士学位期间参加的科研工作102-103
- 参考文献103-114
全文下载:
CAJ格式
不支持迅雷等加速下载工具,请取消加速工具后下载
|
|
|
|
| 1 |
颜跃进,李舟军,陈火旺;基于FP-Tree有效挖掘最大频繁项集[J];软件学报;2005年02期 |
| 2 |
颜跃进,李舟军,陈火旺;一种挖掘最大频繁项集的深度优先算法[J];计算机研究与发展;2005年03期 |
| 3 |
杨学兵,蔡庆生;基于数据立方体的维内关联规则挖掘算法[J];北京科技大学学报;2003年01期 |
| 4 |
黄进,尹治本;关联规则挖掘的Apriori算法的改进[J];电子科技大学学报;2003年01期 |
| 5 |
朱玉全,孙志挥,赵传申;快速更新频繁项集[J];计算机研究与发展;2003年01期 |
| 6 |
惠晓滨,张凤鸣,虞健飞,牛世民;一种基于栈变换的高效关联规则挖掘算法[J];计算机研究与发展;2003年02期 |
| 7 |
杨明,孙志挥,吉根林;快速挖掘全局频繁项目集[J];计算机研究与发展;2003年04期 |
| 8 |
范明,李川;在FP-树中挖掘频繁模式而不生成条件FP-树[J];计算机研究与发展;2003年08期 |
| 9 |
朱玉全,孙志挥,季小俊;基于频繁模式树的关联规则增量式更新算法[J];计算机学报;2003年01期 |
| 10 |
宋余庆,朱玉全,孙志挥,陈耿;基于FP-Tree的最大频繁项目集挖掘及更新算法[J];软件学报;2003年09期 |
|
|
|
|
|
| 1 |
吉根林,孙志挥;挖掘支持度和兴趣度最优的数量关联规则[J];小型微型计算机系统;2004年02期 |
| 2 |
阮备军,朱扬勇;基于商品分类信息的关联规则聚类[J];计算机研究与发展;2004年02期 |
| 3 |
傅景广,许刚,王裕国;基于遗传算法的聚类分析[J];计算机工程;2004年04期 |
| 4 |
颜跃进;李舟军;陈火旺;;频繁项集挖掘算法[J];计算机科学;2004年03期 |
| 5 |
杨学兵,蔡庆生;基于数据立方体的维内关联规则挖掘算法[J];北京科技大学学报;2003年01期 |
| 6 |
郑建军,刘炜,刘玉树,王蕾;基于粗集的贝叶斯分类器算法[J];北京理工大学学报;2003年01期 |
| 7 |
王文清,乔雪峰;带有时态约束的多层次关联规则的挖掘[J];北京理工大学学报;2003年01期 |
| 8 |
卢炎生,张蕊,王澎;一种交互式可约束的最小关联规则集挖掘算法[J];华中科技大学学报(自然科学版);2003年02期 |
| 9 |
朱玉全,孙志挥,赵传申;快速更新频繁项集[J];计算机研究与发展;2003年01期 |
| 10 |
杨明,孙志挥,吉根林;快速挖掘全局频繁项目集[J];计算机研究与发展;2003年04期 |
|