期刊库|学位论文库|会议论文库|飞度BOOK|站内搜索注册|充值中心|购买知网卡|送卡上门|帮助中心|
全文文献: “飞度BOOK”首届期刊庙会开幕啦!
做个飞度客,万千杂志,想看就看!
《国防科学技术大学》 2005年
加入收藏 获取最新

最大频繁项集挖掘算法的研究

颜跃进  
【摘要】:随着信息技术尤其是网络技术的快速发展,人们收集、存储和传输数据的能力不断提高,导致数据出现了爆炸性增长。与此形成鲜明对比的是,对人们决策有价值的知识却非常匮乏。知识发现与数据挖掘正是在这一背景下诞生的一门新科学。 关联规则是数据挖掘当前研究的主要模式之一,它用于确定数据集中不同域或属性之间的联系,找出有价值的多个域之间的依赖关系。频繁项集挖掘是生成关联规则的关键步骤,其效率问题是关联规则挖掘中的一大难点和热点。频繁项集挖掘可分为完全频繁项集挖掘、频繁闭项集挖掘和最大频繁项集挖掘三类。论文基于数据集和最大频繁项集的不同表示结构,从剪枝策略、尾项集的项排序策略和超集存在判断方法等角度对最大频繁项集的挖掘问题进行了深入的分析和研究。 位图是—种有效的数据集和项集的表示结构。论文基于位图提出了深度优先挖掘算法DFMfi。算法DFMfi充分利用位图的字节特性,优化了项集的匹配和合并操作,并首次在其中引入了基于局部最大频繁项集的超集存在判断方法。论文证明了算法DFMfi的正确性,并通过实验说明其在运行时间上少于同类算法。 近几年来,数据集的另—种压缩表示结构—FP-Tree结构越来越受到研究者们的青睐,论文第二部分研究基于FP-Tree结构的最大频繁项集挖掘问题,其中使用FP-Tree表示数据集及其投影,并利用MFI-Tree保存已有最大频繁项集。分析和实验说明已有算法中的超集存在判断为耗时操作,针对这种情况,论文在单棵MFI-Tree表示下基于最大频繁项集投影提出一种新的超集存在判断方法,并证明了多棵MFI-Tree表示下存在一种简单的超集存在判断方法,二者均可有效降低超集存在判断的时间开销。相应于两种超集存在判断方法,论文分别提出了算法FPMFI和FIMFI。在算法FIMFI里,论文分析了尾项集的项排序策略对压缩搜索空间的影响,提出了一种高效的、基于FP-Tree和MFI-Tree信息的尾项集项排序策略。通过使用新的前瞻剪枝方法,算法FIMFI拓展了前瞻剪枝的范围,加大了前瞻剪枝成功的可能性,尽可能地压缩了搜索空间。此外,FPMFI算法中的非冗余子树结构是寻求高效数据集压缩结构的一次尝试。实验表明,在稠密数据集上,这两个算法相对于同类算法均具有一定的优越性。其中FIMFI算法比同类算法中性能最优的FPMax~*算法平均快30%-40%。 论文最后提出一种能同时压缩表示数据集和最大频繁项集的新的数据结构—CFP-Tree,基于CFP-Tree结构定义了最大化子集,并提出了CfpMfi算法。通过其与FPMax~*
【关键词】:数据挖掘 关联规则 频繁项集 最大频繁项集 前瞻剪枝 超集存在判断 频繁模式树 最大频繁项集树 组合频繁模式树
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2005
【分类号】:TP311.13
【DOI】:CNKI:CDMD:1.2006.126836
【目录】:
  • 目录5-8
  • 图表索引8-9
  • 摘要9-11
  • ABSTRACT11-13
  • 第一章 绪论13-22
  • 1.1 数据挖掘技术背景概述13-19
  • 1.1.1 数据挖掘技术的兴起13-14
  • 1.1.2 数据挖掘的定义和任务14-16
  • 1.1.3 数据挖掘的过程和应用16-18
  • 1.1.4 数据挖掘技术面临的主要挑战18-19
  • 1.2 论文的工作和结构19-22
  • 1.2.1 论文的工作20
  • 1.2.2 论文的组织结构20-22
  • 第二章 关联规则挖掘概述22-39
  • 2.1 关联规则挖掘22-28
  • 2.1.1 关联规则挖掘的基本概念22-26
  • 2.1.2 关联规则的分类26-27
  • 2.1.3 关联规则挖掘的研究现状27-28
  • 2.2 频繁项集挖掘相关工作28-38
  • 2.2.1 完全频繁项集挖掘算法28-31
  • 2.2.2 频繁闭项集挖掘算法31-33
  • 2.2.3 最大频繁项集挖掘算法33-38
  • 2.3 小结38-39
  • 第三章 基于单MFI-Tree结构挖掘最大频繁项集39-52
  • 3.1 引言39-41
  • 3.2 相关知识41-44
  • 3.2.1 深度优先搜索策略41-42
  • 3.2.2 FP-Tree(Frequent Pattern Tree)结构42-43
  • 3.2.3 MFI-Tree(Maximal Frequent Itemsets Tree)结构43-44
  • 3.3 基于单MFI-Tree结构的最大频繁项集挖掘算法FPMFI44-48
  • 3.3.1 基于最大频繁项集投影的超集存在判断44-46
  • 3.3.2 非冗余FP子树46-47
  • 3.3.3 算法FPMFI47-48
  • 3.4 性能分析与比较48-51
  • 3.5 小结51-52
  • 第四章 基于位图格式挖掘最大频繁项集52-63
  • 4.1 位图数据格式52-53
  • 4.2 剪枝策略53-55
  • 4.2.1 子集非频繁剪枝(Subset Infrequency Prune)53-54
  • 4.2.2 超集频繁剪枝(Superset Frequency Prune)54
  • 4.2.3 父等价剪枝(Parent Equivalence Prune)54-55
  • 4.3 局部最大频繁项集55-57
  • 4.4 基于位图数据格式的最大频繁项集挖掘算法DFMfi57-58
  • 4.5 性能分析与比较58-62
  • 4.6 小结62-63
  • 第五章 基于多MFI-Tree结构挖掘最大频繁项集63-79
  • 5.1 引言63-64
  • 5.2 相关知识64-65
  • 5.2.1 可能扩展项集和频繁扩展项集64
  • 5.2.2 多MFI-Tree结构表示最大频繁项集集合相关信息64-65
  • 5.3 基于多MFI-Tree结构的最大频繁项集挖掘算法FIMFI65-73
  • 5.3.1 剪枝策略66-68
  • 5.3.2 尾项集的项排序策略68-69
  • 5.3.3 超集存在判断69-71
  • 5.3.4 算法FIMFI71-73
  • 5.4 性能比较73-77
  • 5.5 小结77-79
  • 第六章 基于组合FP-Tree结构挖掘最大频繁项集79-97
  • 6.1 CFP-Tree(Combined FP-Tree)结构79-82
  • 6.1.1 CFP-Tree结构及其性质79-80
  • 6.1.2 CFP-Tree构造过程80-82
  • 6.2 CfpMfi算法82-85
  • 6.2.1 基于CFP-Tree结构的最大频繁项集挖掘算法CfpMfi82-84
  • 6.2.2 基于最大化子集的超集存在判断84-85
  • 6.2.3 基于最大化子集的尾项集的项排序策略85
  • 6.3 性能比较85-96
  • 6.3.1 剪枝性能86-91
  • 6.3.2 时间性能比较91-93
  • 6.3.3 最大内存使用量比较93-96
  • 6.4 小结96-97
  • 第七章 结论与展望97-100
  • 7.1 本文研究工作总结97-98
  • 7.2 基于FP-Tree挖掘频繁闭项集98-99
  • 7.3 今后工作99-100
  • 致谢100-101
  • 攻读博士学位期间发表的论文101-102
  • 攻读博士学位期间参加的科研工作102-103
  • 参考文献103-114
全文下载: CAJ格式
不支持迅雷等加速下载工具,请取消加速工具后下载
CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式

【引证文献】
中国期刊全文数据库 前1条
1 王爱冬;邝祝芳;阳国贵;;基于关联规则挖掘的数据库异常检测系统研究[J];计算机应用与软件;2008年05期
中国硕士学位论文全文数据库 前1条
1 钱程东;基于动态划分的数据挖掘及其在教务管理系统中的应用[D];国防科学技术大学;2006年
【参考文献】
中国期刊全文数据库 前10条
1 颜跃进,李舟军,陈火旺;基于FP-Tree有效挖掘最大频繁项集[J];软件学报;2005年02期
2 颜跃进,李舟军,陈火旺;一种挖掘最大频繁项集的深度优先算法[J];计算机研究与发展;2005年03期
3 杨学兵,蔡庆生;基于数据立方体的维内关联规则挖掘算法[J];北京科技大学学报;2003年01期
4 黄进,尹治本;关联规则挖掘的Apriori算法的改进[J];电子科技大学学报;2003年01期
5 朱玉全,孙志挥,赵传申;快速更新频繁项集[J];计算机研究与发展;2003年01期
6 惠晓滨,张凤鸣,虞健飞,牛世民;一种基于栈变换的高效关联规则挖掘算法[J];计算机研究与发展;2003年02期
7 杨明,孙志挥,吉根林;快速挖掘全局频繁项目集[J];计算机研究与发展;2003年04期
8 范明,李川;在FP-树中挖掘频繁模式而不生成条件FP-树[J];计算机研究与发展;2003年08期
9 朱玉全,孙志挥,季小俊;基于频繁模式树的关联规则增量式更新算法[J];计算机学报;2003年01期
10 宋余庆,朱玉全,孙志挥,陈耿;基于FP-Tree的最大频繁项目集挖掘及更新算法[J];软件学报;2003年09期
中国博士学位论文全文数据库 前3条
1 郭秀娟;基于关联规则数据挖掘算法的研究[D];吉林大学;2004年
2 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
3 张国江;软计算方法和数据挖掘理论在电力系统负荷预测中的应用[D];浙江大学;2002年
【共引文献】
中国期刊全文数据库 前10条
1 宋新葵;杜中军;;一种新的改进的Apriori算法[J];微计算机信息;2009年12期
2 方刚;熊江;;二进制的交叉挖掘关联规则研究[J];计算机工程与应用;2009年07期
3 师富杲;杨凤杰;;基于多级加权更新关联规则的挖掘算法[J];计算机工程与应用;2009年07期
4 徐林章;赵强;张艳宁;;一种基于FP_Tree算法的决策树构造方法[J];计算机工程;2009年08期
5 高正红;毛林;;数据挖掘中的剔除非频繁项超集法[J];科技资讯;2009年06期
6 孟彩霞;;频繁模式挖掘的约束算法[J];智能系统学报;2009年02期
7 陈波;王乐;董鹏;;挖掘最大频繁项集的事务集迭代算法[J];计算机工程与应用;2009年06期
8 谢志强;朱孟杰;杨静;;基于改进FP-树的最大项目集挖掘算法[J];计算机应用研究;2009年02期
9 敖富江;颜跃进;刘宝宏;黄柯棣;;在线挖掘数据流滑动窗口中最大频繁项集[J];系统仿真学报;2009年04期
10 王晗;孔令富;;一种新的增量式关联规则数据挖掘方法研究[J];仪器仪表学报;2009年02期
中国重要会议论文全文数据库 前6条
1 陈波;董鹏;邵勇;;中国通信学会第五届学术年会论文集[A];[C];2008年
2 王丹阳;田卫东;胡学钢;;全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[A];[C];2008年
3 刘德喜;何炎祥;邢显黎;;湖北省机械工程学会青年分会2006年年会暨第2届机械学院院长(系主任)会议论文集(下)[A];[C];2006年
4 张帆;夏红霞;袁景凌;沈琦;;12省区市机械工程学会2006年学术年会湖北省论文集[A];[C];2006年
5 赵晓煜;康锦江;;中国市场学会2006年年会暨第四次全国会员代表大会论文集[A];[C];2006年
6 王一飞;章勇;;全国自动化新技术学术交流会会议论文集(一)[A];[C];2005年
中国博士学位论文全文数据库 前10条
1 刘勇;频繁模式挖掘相关技术研究[D];复旦大学;2007年
2 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
3 李宏;面向应用领域的分类方法研究[D];中南大学;2007年
4 余小高;电子商务环境中分布式数据挖掘的研究[D];武汉理工大学;2007年
5 王永恒;海量短语信息挖掘技术的研究与实现[D];国防科学技术大学;2006年
6 沈斌;关联规则相关技术研究[D];浙江大学;2007年
7 林晓勇;频繁模式挖掘和动态维护的理论与方法研究[D];北京化工大学;2008年
8 唐朝晖;铅锌生产过程密闭鼓风炉故障诊断技术及应用[D];中南大学;2008年
9 宋卫林;基于最大频繁项目集的数据挖掘关联规则算法研究[D];北京邮电大学;2006年
10 周忠眉;中医方剂数据挖掘模式和算法研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 刘淼;健康体检数据仓库的构建及相关数据挖掘[D];大连理工大学;2008年
2 王新艳;高维分类属性的子空间聚类算法研究[D];大连理工大学;2008年
3 窦亮;基于Tomcat日志挖掘的个性化系统原型设计和实现[D];武汉理工大学;2008年
4 郑婷婷;基于相关规则挖掘的中文文本分类[D];华中科技大学;2007年
5 胡惇;数据流环境下的实时关联规则挖掘研究[D];华中科技大学;2007年
6 滕明鑫;基于神经网络的动态数据挖掘研究[D];重庆大学;2008年
7 张贺;挖掘频繁闭项集并构建其格的快速算法研究[D];重庆大学;2008年
8 张自敏;加权关联规则的研究[D];重庆大学;2008年
9 胡惇;数据流环境下的实时关联规则挖掘研究[D];华中科技大学;2007年
10 董爱杰;保护隐私的关联规则挖掘研究[D];大连交通大学;2008年
【同被引文献】
中国期刊全文数据库 前7条
1 袁朝华;柏文阳;;一种数据库入侵检测模型的研究[J];计算机应用研究;2006年04期
2 颜跃进;李舟军;陈火旺;;频繁项集挖掘算法[J];计算机科学;2004年03期
3 杨学兵,蔡庆生;基于数据立方体的维内关联规则挖掘算法[J];北京科技大学学报;2003年01期
4 惠晓滨,张凤鸣,虞健飞,牛世民;一种基于栈变换的高效关联规则挖掘算法[J];计算机研究与发展;2003年02期
5 杨明,孙志挥,吉根林;快速挖掘全局频繁项目集[J];计算机研究与发展;2003年04期
6 张静,田忠和;基于IIS和web日志的关联关系的挖掘[J];华中科技大学学报(自然科学版);2002年08期
7 范明;牛常勇;朱琰;;一种挖掘多维关联规则的有效算法[J];计算机科学;2001年11期
中国博士学位论文全文数据库 前3条
1 刘君强;海量数据挖掘技术研究[D];浙江大学;2003年
2 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
3 周皓峰;关联规则挖掘的拓展性研究[D];复旦大学;2003年
中国硕士学位论文全文数据库 前1条
1 张云哲;数据挖掘技术在邮政CRM中的应用[D];哈尔滨工程大学;2003年
【二级参考文献】
中国期刊全文数据库 前10条
1 吉根林,孙志挥;挖掘支持度和兴趣度最优的数量关联规则[J];小型微型计算机系统;2004年02期
2 阮备军,朱扬勇;基于商品分类信息的关联规则聚类[J];计算机研究与发展;2004年02期
3 傅景广,许刚,王裕国;基于遗传算法的聚类分析[J];计算机工程;2004年04期
4 颜跃进;李舟军;陈火旺;;频繁项集挖掘算法[J];计算机科学;2004年03期
5 杨学兵,蔡庆生;基于数据立方体的维内关联规则挖掘算法[J];北京科技大学学报;2003年01期
6 郑建军,刘炜,刘玉树,王蕾;基于粗集的贝叶斯分类器算法[J];北京理工大学学报;2003年01期
7 王文清,乔雪峰;带有时态约束的多层次关联规则的挖掘[J];北京理工大学学报;2003年01期
8 卢炎生,张蕊,王澎;一种交互式可约束的最小关联规则集挖掘算法[J];华中科技大学学报(自然科学版);2003年02期
9 朱玉全,孙志挥,赵传申;快速更新频繁项集[J];计算机研究与发展;2003年01期
10 杨明,孙志挥,吉根林;快速挖掘全局频繁项目集[J];计算机研究与发展;2003年04期
【相似文献】
中国期刊全文数据库 前10条
1 陈强,黄国兴;一种适用于关联规则挖掘的优化的选样算法[J];微型电脑应用;2005年03期
2 汪祖云;;关联规则算法研究及其应用[J];今日科苑;2008年14期
3 沈旭昌;保持隐私的关联规则挖掘[J];计算机工程与设计;2005年03期
4 林嘉宜,彭宏,郑启伦,李颖基;基于参考度的关联规则挖掘[J];计算机应用;2005年08期
5 熊朝松;关联规则挖掘综述[J];科技广场;2005年05期
6 朱喜梅;;关联规则挖掘综述[J];电脑知识与技术(学术交流);2006年05期
7 邓景毅;;关联规则数据挖掘综述[J];电脑学习;2006年03期
8 安睿;;基于项目集的关联规则数据挖掘[J];辽宁工程技术大学学报;2006年S2期
9 程红霞;;基于关联规则的数据挖掘算法研究[J];电脑知识与技术(学术交流);2007年03期
10 赵艳丽;;遗传算法在关联规则挖掘中的研究与应用[J];福建电脑;2008年07期
中国重要会议论文全文数据库 前10条
1 刘晓燕;单晓红;;遗传算法在关联规则挖掘中的应用[A];第六届中国青年运筹与管理学者大会论文集[C];2004年
2 毛定祥;;数据挖掘与实证经济学[A];2003中国现场统计研究会第十一届学术年会论文集(上)[C];2003年
3 温磊;牛东晓;何永贵;;基于权重约束的频繁项集挖掘算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
4 贺庆;冯海旗;;基于关联规则挖掘的隐私保护方法研究[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
5 温磊;李敏强;;基于有向项集图的频繁项集增量更新挖掘算法[A];2004中国控制与决策学术年会论文集[C];2004年
6 张敏;陆向艳;周敏;潘林琳;农冬冬;王彬彬;陈晓江;;数据挖掘在智能题库系统中的应用[A];广西计算机学会——2004年学术年会论文集[C];2004年
7 雷宇;;论行业信息资源的数据挖掘[A];中国烟草行业信息化研讨会论文集[C];2004年
8 叶强;李一军;;基于支持度-显著度的关联规则分类方法研究[A];管理科学与系统科学研究新进展——第8届全国青年管理科学与系统科学学术会议论文集[C];2005年
9 王丹阳;田卫东;胡学钢;;基于SMP系统的并行Apriori算法研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
10 王轶;达新宇;;分布式并行数据挖掘计算框架及其算法研究[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
中国重要报纸全文数据库 前10条
1 吴勇毅;软件选型:数据挖掘是重点[N];中国冶金报;2009年
2 ;数据挖掘流程[N];人民邮电;2001年
3 早报记者 胡孝敏;跨国企业掘金中国“数据挖掘”市场[N];东方早报;2005年
4 赵纪元;数据挖掘在CRM中的应用[N];人民邮电;2001年
5 吴辅世;打破数据挖掘的5个神话[N];中国计算机报;2003年
6 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
7 ;数据挖掘:如何挖出效益?[N];中国计算机报;2004年
8 聂亚林;承钢数据挖掘系统近日开通运行[N];中国冶金报;2007年
9 吴军;数据挖掘[N];中国商报;2001年
10 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
中国博士学位论文全文数据库 前10条
1 王德兴;基于概念格模型关联规则挖掘的关键问题研究[D];合肥工业大学;2007年
2 颜跃进;最大频繁项集挖掘算法的研究[D];国防科学技术大学;2005年
3 陆楠;关联规则的挖掘及其算法的研究[D];吉林大学;2007年
4 高飞;关联规则挖掘算法研究[D];西安电子科技大学;2001年
5 叶飞跃;关联规则及其元规则挖掘技术研究[D];南京航空航天大学;2006年
6 刘亚波;关联规则挖掘方法的研究及应用[D];吉林大学;2005年
7 周皓峰;关联规则挖掘的拓展性研究[D];复旦大学;2003年
8 冯丽;数据挖掘和人工智能理论在短期电力负荷预测中的应用研究[D];浙江大学;2005年
9 王达;时间序列数据挖掘研究与应用[D];浙江大学;2004年
10 任佳;分类关联规则挖掘及其在复杂工业过程中的应用研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 王震;数据挖掘在企业营销中的应用研究[D];重庆大学;2004年
2 吴文妹;基于改进关联规则和聚类算法在数据挖掘中的应用[D];福州大学;2005年
3 窦祥国;关联规则评价方法研究[D];合肥工业大学;2005年
4 王评;人工免疫算法研究及其在数据挖掘上的应用[D];福州大学;2005年
5 刘凡;基于概念格扩展模型的关联规则挖掘[D];合肥工业大学;2005年
6 尹国琦;改进的Apriori算法在大学生素质拓展中的应用[D];大连交通大学;2005年
7 高春玲;关联规则挖掘的实现[D];郑州大学;2001年
8 王晓翔;基于关联规则挖掘的仪表生产质量管理研究及系统设计[D];河北工业大学;2005年
9 曾海颖;客户关系管理中的数据挖掘[D];南京航空航天大学;2003年
10 刘桂庆;关联规则挖掘算法研究[D];合肥工业大学;2004年
关于知网|版权声明|学术会议服务|广告服务|在线咨询
京ICP证040431号互联网出版许可证新出网证(京)字008号北京市公安局海淀分局备案号:110 1081725
订购咨询热线:800-810-6613、010-62985026免费送卡上门
主办:清华大学
数字出版:中国学术期刊电子杂志社
在线发行:同方知网(北京)技术有限公司
关 闭
关 闭
关 闭