收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

最大频繁项集挖掘算法及应用研究

王卉  
【摘要】:频繁项集的挖掘是数据挖掘中的一个基础和核心问题,具有广泛的应用领域。由于它是数据挖掘过程中最耗时的部分,挖掘算法的好坏直接影响数据挖掘尤其是关联挖掘的效率和应用范围。因此,最大频繁项集挖掘算法的研究具有重要的理论和应用价值。 在对数据挖掘中的核心问题,即频繁项集的挖掘算法及其并行化技术,进行深入研究的基础上,围绕最大频繁项集的挖掘算法和应用,研究了高效的挖掘最大频繁项集的串行算法和并行算法,并将最大频繁项集挖掘算法应用于入侵检测。 频繁项集的挖掘是一个搜索问题,剪枝优化技术是提高频繁项集挖掘效率的一个重要手段。文献中在频繁项集挖掘算法中用到的剪枝优化策略可归纳为:根部剪枝、频繁扩展和不扩展三种策略。在分析与研究传统剪枝策略的基础上,提出了新的剪枝策略——多步回退剪枝策略。多步回退剪枝策略在发现一个最大频繁项集后最多可一次回退k层(k为所发现的这个最大频繁项集的长度),最好情况下可将要扩展的节点数量从 降低为 。与文献中深度优先搜索中逐层回退策略相比,可大幅度削剪搜索空间,达到提高解决问题效率的目的。 最大频繁项集的挖掘是频繁项集挖掘中的重要研究分支。在分析了现有最大频繁项集挖掘算法的基础上,针对其不足,提出了一个改进的挖掘最大频繁项集的算法MinMax(Mining Maximal)。MinMax采用了垂直的数据库表示形式,按照自顶向下深度优先的策略对项集空间进行搜索,采用了多步回退剪枝、根部剪枝、频繁扩展和不扩展等多种剪枝优化策略,大幅度削剪了搜索空间。提出了频繁项的不频繁度的概念,通过对频繁项进行适当的排序发挥了各种剪枝优化技术的优势。垂直的数据库表示形式使得项集的支持度计算可以通过简单的集合交集运算来完成,从而避免了对数据库的多次扫描。实验和分析表明,在长模式密集的情况下,MinMax的性能优于目前同类算法。 并行处理是提高解决问题效率的有效办法,在研究了挖掘最大频繁项集挖掘的并行化策略地基础上,基于分布存储结构,将算法MinMax并行化,提出了挖掘最大频 WP=4 繁项集的并行算法P-MinMax(Parallel MinMax)。为了异步执行MinMax,减少处理机之间的制约和等待,P-MinMax基于前缀关系划分等价类,以等价类长度的指数函数为权值,并利用因子项集的完全包含关系在处理机之间贪心分配等价类,根据等价类的需要相应地划分和复制数据库记录,使各处理机得以异步计算,达到了较好的负载平衡、较高的剪枝效率和较少的数据库记录复制,减少了算法的执行时间。分析和实验表明, P-MinMax有较好的可扩展性,其性能优于已有同类算法。 从以数据为中心的观点来看,入侵检测问题实际上是一个数据分析问题。用以入侵检测的数据是主机的审计轨迹数据和网络的审计轨迹数据,这些审计数据中记录了系统和网络上发生的所有活动。基于此种思想,提出了一个基于最大频繁项集的入侵检测系统模型MMID(Mining Maximal for Intrusion Detection)。模型中,针对入侵检测的特点,设计了新的最大频繁项集的挖掘算法MinMax_for_IDS。通过挖掘训练数据中的最大频繁项集建立系统和用户的正常行为模型以及攻击模型,用一个滑动窗口来检测是否有不被正常行为模型覆盖的频繁模式发生,以此达到检测入侵的目的。实验表明,MMID对在短时间内频繁发生的攻击类型有较高的检测速度和精度。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王爱平;王占凤;陶嗣干;燕飞飞;;数据挖掘中常用关联规则挖掘算法[J];计算机技术与发展;2010年04期
2 谈恒贵;王文杰;李克双;;频繁项集挖掘算法综述[J];计算机仿真;2005年11期
3 张应征;成新红;;一种改进的关联规则挖掘算法在入侵检测中的应用研究[J];计算机安全;2011年02期
4 柳彦平,王文杰,荣江;频繁项集挖掘算法研究[J];微型机与应用;2005年04期
5 潘怡;杜红燕;;数据流频繁闭项集挖掘研究[J];长沙大学学报;2010年05期
6 程杰;;基于二进制的频繁项集挖掘新算法[J];电脑知识与技术;2009年13期
7 朱嘉贤;一个基于散列技术的关联规则挖掘算法[J];肇庆学院学报;2004年05期
8 章志明;黄龙军;余敏;黄明和;;一种动态的频繁项集挖掘算法[J];计算机工程;2006年24期
9 王朝辉;王婷婷;;一种快速的频繁项集挖掘算法[J];贵州工业大学学报(自然科学版);2006年06期
10 汪成亮;罗昌银;;一种基于组合方式改进的频繁项集挖掘算法[J];计算机系统应用;2010年01期
11 刘景春;快速关联规则挖掘算法[J];佳木斯大学学报(自然科学版);2004年02期
12 王国光;刘铁英;王鑫;;基于空间划分的频繁模式挖掘算法[J];内蒙古大学学报(自然科学版);2007年03期
13 郭云峰;张集祥;;一种基于压缩前缀树的频繁模式挖掘算法[J];计算机工程与科学;2009年12期
14 才科扎西;黄景廉;;基于前缀树的高效频繁项集挖掘算法[J];计算机工程;2010年04期
15 刘芝怡;尹飞鸿;;基于FP-矩阵的频繁项集挖掘算法[J];中国制造业信息化;2011年15期
16 任亚洲;;频繁项集挖掘算法综述[J];电脑知识与技术(学术交流);2007年16期
17 张一梅;陈俊杰;;基于数组的关联规则挖掘算法的改进研究[J];计算机与数字工程;2008年04期
18 叶和平;尚敏;;一种面向入侵检测的数据挖掘算法研究[J];计算机技术与发展;2008年11期
19 蒋栋栋;孙志挥;汪晓刚;吴英杰;吕建华;;水平分布数据集的隐私保护关联挖掘算法[J];计算机工程;2009年02期
20 顾红其;;关联挖掘Apriori算法的研究与应用[J];计算机与信息技术;2009年09期
中国重要会议论文全文数据库 前10条
1 沈向余;李伟华;;几种关联规则挖掘算法的分析[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
2 陈晓云;李龙杰;马志新;白伸伸;王磊;;AFP-Miner:一种新高效的频繁项集挖掘算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
3 丁艳辉;王洪国;高明;谷建军;;一种基于矩阵的高效关联规则挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 王晨;朱永泰;汪卫;施伯乐;;高效地挖掘频繁图模式[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
5 程银波;司菁菁;;带有间隔约束的序列模式挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
6 郭平;陈黎;聂亚可;林勇;;以Apriori为基础的序列挖掘算法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
7 曹波伟;薛青;唐志武;任晓明;;面向军事基础数据的数据挖掘研究[A];2009系统仿真技术及其应用学术会议论文集[C];2009年
8 朱永泰;王晨;洪铭胜;汪卫;施伯乐;;ESPM——频繁子树挖掘算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 蔡国强;李川;范明;;一个高效的多维关联规则挖掘算法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
10 侯俊杰;李春平;;一种基于内存索引的频繁模式挖掘算法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国博士学位论文全文数据库 前10条
1 王卉;最大频繁项集挖掘算法及应用研究[D];华中科技大学;2004年
2 李海波;频繁子结构挖掘算法研究与应用[D];华中科技大学;2011年
3 毛伊敏;数据流频繁模式挖掘关键算法及其应用研究[D];中南大学;2011年
4 阮幼林;频繁模式挖掘算法及在入侵检测中的应用研究[D];华中科技大学;2004年
5 由育阳;数据流容错挖掘算法研究[D];哈尔滨工程大学;2011年
6 屠莉;流数据的频繁项挖掘及聚类的关键技术研究[D];南京航空航天大学;2009年
7 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
8 叶飞跃;关联规则及其元规则挖掘技术研究[D];南京航空航天大学;2006年
9 陈耿;面向中观审计的规则发现算法研究[D];东南大学;2005年
10 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 赵娟;一种基于矩阵的并行频繁项集挖掘算法研究与实现[D];兰州大学;2011年
2 王立波;基于滑动窗口的数据流频繁模式挖掘算法研究[D];燕山大学;2010年
3 蔡伟贤;关联分析在入侵检测中的研究与应用[D];广东工业大学;2011年
4 陈帅;基于垂直数据格式频繁项集挖掘算法的研究[D];燕山大学;2012年
5 张爱国;基于位置信息的精简频繁模式挖掘算法的研究[D];燕山大学;2011年
6 刘立新;数据流频繁模式挖掘算法研究[D];中南大学;2010年
7 肖仁财;序列模式挖掘算法研究与实现[D];江苏大学;2007年
8 许光宇;三维微阵列频繁闭模式挖掘算法的研究与实现[D];东北大学;2008年
9 商志会;关联规则挖掘算法的研究及其在网络入侵检测中的应用[D];同济大学;2006年
10 陈宇珽;数据挖掘技术在入侵检测中的应用[D];上海交通大学;2010年
中国重要报纸全文数据库 前10条
1 钟力 姚兰 梁中骐;抓住罪恶之“手”[N];网络世界;2004年
2 行健;启明星辰发布天阗入侵检测与管理系统V6.0[N];国际商报;2004年
3 ;NetScreen-IDP 500 高端入侵检测与防护设备[N];计算机世界;2003年
4 启明星辰信息技术有限公司总裁兼CEO 严望佳;启明星辰:追求产业创新[N];电脑商报;2008年
5 王明毅;入侵检测融合漏洞扫描技术带来产品新突破[N];中国石油报;2004年
6 Henry Wang;误报漏报是个难点[N];中国计算机报;2004年
7 ;如何选择和使用UTM设备[N];网络世界;2009年
8 北京 张率;防黑第一招[N];中国电脑教育报;2001年
9 李刚;打IDS“组合拳”[N];中国计算机报;2004年
10 ;入侵检测产品功能指标说明[N];网络世界;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978