收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于多重最小支持度的髙效用频繁项集挖掘算法研究

王立俊  
【摘要】:频繁项集挖掘是数据挖掘领域的重要研究方向之一,但是传统的频繁项集挖掘算法只考虑项集的支持度,这使得在挖掘过程中丢失一些用户感兴趣的项集。此外,由于数据流具有实时性、无限性和连续性的特性,这就要求在数据流环境中的频繁项集挖掘算法具有较高的时间和空间效率。本文对多重最小支持度和高效用项集挖掘算法问题进行描述,在数据结构和处理方法上,对目前已有的频繁项集和高效用项集挖掘算法的优缺点进行分析和总结,在此基础上做了以下研究工作:(1)在静态数据集中,针对现有的多重最小支持度挖掘算法会产生大量的中间候选集,增加了时间和内存的开销,且没有考虑项集的效用值等问题。本文利用多重最小支持度和效用值,构造了数据结构MHU-Tree,并提出用于修剪构造过程中全局MHU-Tree的PG策略和用于修剪挖掘过程中局部MHU-Tree的PL策略。在此基础上,提出了基于多重最小支持度的高效用频繁项集挖掘算法MHU-Growth,较大地减少中间候选项集的数量,快速地挖掘高效用频繁项集。通过与经典算法CFP-Growth++进行对比,验证了MHU-Growth算法在运行时间、候选项集产生的数量以及内存开销等性能上优于CFP-Growth++算法。(2)在数据流环境中,现有的高效用项集挖掘算法需要多次扫描数据库,而对用户来说,效用阂值难设置,过高或过低都会影响挖掘效果。针对这些问题,本文结合多重最小支持度和效用值,构造适用于数据流挖掘的数据结构TKHUF-Tree和构建存储效用信息的矩阵PMD和RMD,并提出PEU、RTS等阈值调整策略来自动调整效用阈值的大小,减少中间候选项集的产生数量以及数据库扫描次数。(3)在TKHUF-Tree的基础上,提出了top-k高效用频繁项集数据流挖掘算法TKHFDS,它利用滑动窗口模型来处理数据流数据,并提出minTKUtil策略来调整下一个窗口的效用阂值,快速、有效地挖掘出高效用频繁项集。最后,将算法TKHFDS与传统算法TKU及T-HUDS进行对比,实验验证了TKHFDS算法在时间和内存开销等性能上的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 肖基毅,邹腊梅,刘丰;频繁项集挖掘算法研究[J];情报杂志;2005年11期
2 蔡进;薛永生;张东站;;基于分区分类法快速更新频繁项集[J];计算机工程与应用;2007年09期
3 胡学钢;徐勇;王德兴;张晶;;基于多剪枝格的频繁项集表示与挖掘[J];合肥工业大学学报(自然科学版);2007年04期
4 胡学钢;刘卫;王德兴;;基于剪枝概念格模型的频繁项集表示及挖掘[J];合肥工业大学学报(自然科学版);2007年09期
5 栾鸾;李云;盛艳;;多关系频繁项集的并行获取[J];微电子学与计算机;2008年10期
6 李彦伟;戴月明;王金鑫;;一种挖掘加权频繁项集的改进算法[J];计算机工程与应用;2011年15期
7 陈立潮,张建华,刘玉树;提高频繁项集挖掘算法效率的方法研究[J];计算机工程与应用;2002年10期
8 朱玉全,孙志挥,赵传申;快速更新频繁项集[J];计算机研究与发展;2003年01期
9 宋宝莉;张帮华;何炎祥;朱骁峰;;带有多个可转化约束的频繁项集挖掘算法[J];计算机科学;2003年12期
10 王自强,冯博琴;频繁项集的简洁表示方法研究[J];系统工程理论与实践;2004年07期
11 颜跃进;李舟军;陈火旺;;频繁项集挖掘算法[J];计算机科学;2004年03期
12 柳彦平,王文杰,荣江;频繁项集挖掘算法研究[J];微型机与应用;2005年04期
13 刘晓玲,李玉忱;一种利用逻辑“与”运算挖掘频繁项集的算法[J];中国科技信息;2005年15期
14 陈凯 ,冯全源;基于矩阵伪投影策略的频繁项集挖掘方法[J];微计算机信息;2005年23期
15 阮幼林;李庆华;杨世达;;一种基于事务树的快速频繁项集挖掘与更新算法[J];计算机科学;2005年02期
16 袁鼎荣,李波;频繁项集挖掘技术述评[J];广西民族学院学报(自然科学版);2005年01期
17 马猛,倪志伟;基于异集产生频繁项集的研究[J];计算机工程与应用;2005年08期
18 陈慧萍;王建东;王煜;;频繁项集挖掘的研究与进展[J];计算机仿真;2006年04期
19 黄龙军;章志明;段隆振;黄明和;;一种基于无向项集图的频繁项集挖掘算法[J];计算机工程与应用;2006年16期
20 唐德权;王绪峰;朱林立;谢文君;;一种快速挖掘频繁项集算法的研究[J];湖南科技学院学报;2006年05期
中国重要会议论文全文数据库 前10条
1 栾鸾;李云;盛艳;;多关系频繁项集的并行获取[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
2 杨晓明;王晨;汪卫;张守志;施伯乐;;频繁项集的精简表达与还原问题研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 邓传国;;频繁项集挖掘与学生素质测评应用研究[A];2007系统仿真技术及其应用学术会议论文集[C];2007年
4 李彤岩;李兴明;;基于分布式关联规则挖掘的告警相关性研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(下册)[C];2007年
5 王洪利;冯玉强;;频繁项集挖掘算法Apriori的改进研究[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
6 陈晓云;李龙杰;马志新;白伸伸;王磊;;AFP-Miner:一种新高效的频繁项集挖掘算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
7 李坤;王永炎;王宏安;;一种基于乐观裁剪策略的挖掘数据流滑动窗口上闭合频繁项集的算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
8 邹远娅;周皓峰;王晨;汪卫;施伯乐;;FSC——利用频繁项集挖掘估算视图大小[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 杨晓雪;衡红军;;一种对XML数据进行关联规则挖掘的方法研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 谢志军;陈红;;EFIM——数据流上频繁项集挖掘的高性能算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前3条
1 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
2 董杰;基于位表的关联规则挖掘及关联分类研究[D];大连理工大学;2009年
3 贾彩燕;关联规则挖掘的取样复杂性分析[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前10条
1 王立俊;基于多重最小支持度的髙效用频繁项集挖掘算法研究[D];广西大学;2015年
2 郭静;最大和最长频繁项集增量更新研究[D];燕山大学;2010年
3 刘卫;基于剪枝概念格模型的频繁项集表示及挖掘研究[D];合肥工业大学;2007年
4 王洪波;基于矩阵的频繁项集挖掘算法研究[D];兰州大学;2007年
5 王春凯;挖掘正相关的频繁项集[D];郑州大学;2007年
6 李伟民;基于频繁项集的马尔可夫网构建及其系统设计与实现[D];云南大学;2012年
7 宛婉;基于抽样的云频繁项集挖掘算法研究[D];合肥工业大学;2013年
8 熊金芬;一种高效频繁项集挖掘算法的研究[D];哈尔滨工程大学;2006年
9 王春丽;基于频繁项集的互补替代关系挖掘算法[D];郑州大学;2011年
10 冯沙沙;基于位表的频繁项集挖掘算法研究[D];燕山大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978