收藏本站
《华中科技大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

最大频繁项集挖掘算法及应用研究

王卉  
【摘要】:频繁项集的挖掘是数据挖掘中的一个基础和核心问题,具有广泛的应用领域。由于它是数据挖掘过程中最耗时的部分,挖掘算法的好坏直接影响数据挖掘尤其是关联挖掘的效率和应用范围。因此,最大频繁项集挖掘算法的研究具有重要的理论和应用价值。 在对数据挖掘中的核心问题,即频繁项集的挖掘算法及其并行化技术,进行深入研究的基础上,围绕最大频繁项集的挖掘算法和应用,研究了高效的挖掘最大频繁项集的串行算法和并行算法,并将最大频繁项集挖掘算法应用于入侵检测。 频繁项集的挖掘是一个搜索问题,剪枝优化技术是提高频繁项集挖掘效率的一个重要手段。文献中在频繁项集挖掘算法中用到的剪枝优化策略可归纳为:根部剪枝、频繁扩展和不扩展三种策略。在分析与研究传统剪枝策略的基础上,提出了新的剪枝策略——多步回退剪枝策略。多步回退剪枝策略在发现一个最大频繁项集后最多可一次回退k层(k为所发现的这个最大频繁项集的长度),最好情况下可将要扩展的节点数量从 降低为 。与文献中深度优先搜索中逐层回退策略相比,可大幅度削剪搜索空间,达到提高解决问题效率的目的。 最大频繁项集的挖掘是频繁项集挖掘中的重要研究分支。在分析了现有最大频繁项集挖掘算法的基础上,针对其不足,提出了一个改进的挖掘最大频繁项集的算法MinMax(Mining Maximal)。MinMax采用了垂直的数据库表示形式,按照自顶向下深度优先的策略对项集空间进行搜索,采用了多步回退剪枝、根部剪枝、频繁扩展和不扩展等多种剪枝优化策略,大幅度削剪了搜索空间。提出了频繁项的不频繁度的概念,通过对频繁项进行适当的排序发挥了各种剪枝优化技术的优势。垂直的数据库表示形式使得项集的支持度计算可以通过简单的集合交集运算来完成,从而避免了对数据库的多次扫描。实验和分析表明,在长模式密集的情况下,MinMax的性能优于目前同类算法。 并行处理是提高解决问题效率的有效办法,在研究了挖掘最大频繁项集挖掘的并行化策略地基础上,基于分布存储结构,将算法MinMax并行化,提出了挖掘最大频 WP=4 繁项集的并行算法P-MinMax(Parallel MinMax)。为了异步执行MinMax,减少处理机之间的制约和等待,P-MinMax基于前缀关系划分等价类,以等价类长度的指数函数为权值,并利用因子项集的完全包含关系在处理机之间贪心分配等价类,根据等价类的需要相应地划分和复制数据库记录,使各处理机得以异步计算,达到了较好的负载平衡、较高的剪枝效率和较少的数据库记录复制,减少了算法的执行时间。分析和实验表明, P-MinMax有较好的可扩展性,其性能优于已有同类算法。 从以数据为中心的观点来看,入侵检测问题实际上是一个数据分析问题。用以入侵检测的数据是主机的审计轨迹数据和网络的审计轨迹数据,这些审计数据中记录了系统和网络上发生的所有活动。基于此种思想,提出了一个基于最大频繁项集的入侵检测系统模型MMID(Mining Maximal for Intrusion Detection)。模型中,针对入侵检测的特点,设计了新的最大频繁项集的挖掘算法MinMax_for_IDS。通过挖掘训练数据中的最大频繁项集建立系统和用户的正常行为模型以及攻击模型,用一个滑动窗口来检测是否有不被正常行为模型覆盖的频繁模式发生,以此达到检测入侵的目的。实验表明,MMID对在短时间内频繁发生的攻击类型有较高的检测速度和精度。
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2004
【分类号】:TP301.6

手机知网App
【引证文献】
中国博士学位论文全文数据库 前1条
1 阮幼林;频繁模式挖掘算法及在入侵检测中的应用研究[D];华中科技大学;2004年
中国硕士学位论文全文数据库 前7条
1 方正儒;一种基于密度引力的聚类算法及其在入侵检测中的应用[D];南昌大学;2010年
2 陈崇乐;改进的关联规则挖掘算法在网络用户访问日志分析中的应用[D];上海师范大学;2007年
3 李钒;基于半结构化数据模型的频繁模式挖掘研究[D];湖南师范大学;2008年
4 武瑞娟;基于数据挖掘的入侵检测系统的研究[D];中北大学;2008年
5 蔡少伟;数据挖掘在入侵检测中的应用研究[D];华南理工大学;2010年
6 杨雅双;关联规则的并行挖掘算法研究[D];西安科技大学;2010年
7 许立莎;基于关联规则挖掘的分类算法研究[D];西安科技大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 宋世杰,胡华平,胡笑蕾;关联规则和序列模式算法在入侵检测系统中的应用[J];成都信息工程学院学报;2004年01期
2 李庆华;王卉;蒋盛益;;挖掘最大频繁项集的并行算法[J];计算机科学;2004年12期
3 刘君强,孙晓莹,王勋;最大频集的挖掘方法[J];计算机工程;2003年11期
4 李庆华,童健华,孟中楼,张薇;基于数据挖掘的入侵特征建模[J];计算机工程;2004年08期
5 王卉,李庆华,马传香,李肯立;频繁模式挖掘中的剪枝策略[J];计算机工程与科学;2003年04期
6 连一峰,戴英侠,王航;基于模式挖掘的用户行为异常检测[J];计算机学报;2002年03期
7 凌军,曹阳,尹建华,黄天锡;基于时态知识模型的网络入侵检测方法研究[J];计算机学报;2003年11期
8 胡侃,张伟荦,夏绍玮;自适应区间配置在关联规则并行采掘中的作用(英文)[J];软件学报;2000年02期
9 路松峰,卢正鼎;快速开采最大频繁项目集[J];软件学报;2001年02期
10 宋余庆,朱玉全,孙志挥,陈耿;基于FP-Tree的最大频繁项目集挖掘及更新算法[J];软件学报;2003年09期
【共引文献】
中国期刊全文数据库 前10条
1 赵群礼;;基于FP-Tree的最大频繁项目集综合更新算法[J];安徽教育学院学报;2006年03期
2 赵群礼;卢朴;;基于T-tree的最大频繁项目集挖掘算法[J];合肥师范学院学报;2009年06期
3 宋威;刘宇;李晋宏;;基于数据库垂直表示的高效用项集挖掘算法研究[J];北方工业大学学报;2011年01期
4 秦如新;田英杰;陈静;邓乃扬;张海斌;;双聚类的关联规则挖掘方法[J];北京工业大学学报;2009年04期
5 白昊;王崑声;胡昌振;张刚;经小川;;基于FP-Growth算法及补偿性入侵证据的攻击意图识别[J];北京理工大学学报;2010年08期
6 万隆昌;聂承启;;基于FP-Tree的遍历算法[J];江西师范大学学报(自然科学版);2005年06期
7 邱舟强;滕少华;李振坤;陈平华;张巍;;数据挖掘技术在网络入侵检测中的应用[J];江西师范大学学报(自然科学版);2006年01期
8 栗晓聪;滕少华;;频繁项集挖掘的Apriori改进算法研究[J];江西师范大学学报(自然科学版);2011年05期
9 刘独玉;杨晋浩;钟守铭;;关联规则挖掘研究综述[J];成都大学学报(自然科学版);2006年01期
10 宋世杰,胡华平,胡笑蕾;关联规则和序列模式算法在入侵检测系统中的应用[J];成都信息工程学院学报;2004年01期
中国重要会议论文全文数据库 前10条
1 贾超;张胤;;互联网络的多特征融合入侵检测方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 张华飞;董黎刚;王盛;;一种基于逆序编码性质的Apriori算法改进[A];浙江省电子学会2011学术年会论文集[C];2011年
3 朱玉全;孙志挥;宋余庆;陈耿;;一种基于FP-tree的最大频繁项目集挖掘算法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 冯玉才;詹伟;朱虹;张勇;;安全DBMS入侵检测系统[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
5 李爱平;刘涛;贾焰;吴泉源;;基于FP-Tree的多重最小支持度关联规则挖掘算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 杨君锐;赵群礼;杜建;;关于最大频繁项集的增量式挖掘方法研究[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 钱进;潘瑜;郭庆军;陈卫平;;基于频繁模式链表的最大频繁项目集快速挖掘算法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
8 刘玉葆;蔡嘉荣;印鉴;黄志兰;;基于最大访问模式挖掘的数据库异常行为检测[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
9 王孟;白清源;谢丽聪;谢伙生;张莹;;基于信息增益规则排序的关联文本分类[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
10 王卉;屈强;;面向入侵检测的数据挖掘:研究与发展[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
中国博士学位论文全文数据库 前10条
1 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
2 李彤岩;基于数据挖掘的通信网告警相关性分析研究[D];电子科技大学;2010年
3 张寅;个性化技术及其在数字图书馆中应用的研究[D];浙江大学;2009年
4 程文聪;面向大规模网络安全态势分析的时序数据挖掘关键技术研究[D];国防科学技术大学;2010年
5 马晓普;角色工程中的角色与约束生成方法研究[D];华中科技大学;2011年
6 王飞;入侵检测分类器设计及其融合技术研究[D];南京理工大学;2011年
7 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
8 鱼亮;蛋白质网络模块结构识别算法研究[D];西安电子科技大学;2011年
9 张志宏;电子商务模式下的顾客行为特征提取及利润挖掘[D];天津大学;2010年
10 孙智勇;我国结构性减税政策的相关问题研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前10条
1 梅俊;数据挖掘中关联规则算法的研究及应用[D];安徽工程大学;2010年
2 刘志强;基于数据挖掘的客户行为分析和预测研究[D];山东科技大学;2010年
3 李威;多参数扰动的隐私保护关联规则挖掘算法研究[D];哈尔滨工程大学;2010年
4 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
5 王秀锋;网络环境下异构日志信息获取和预处理研究[D];哈尔滨工程大学;2010年
6 扶宗文;基于粗糙集与支持向量机的入侵检测研究[D];长沙理工大学;2010年
7 陈宇晖;基于数据挖掘的入侵检测方法研究[D];长沙理工大学;2010年
8 朱彦霞;多关系关联规则及其在HRM中的应用[D];河南工业大学;2010年
9 高峰;化工企业人力资源管理系统的设计与实现[D];华东师范大学;2010年
10 张磊;基于高级SQL查询的分布式多维关联规则挖掘算法的研究[D];天津理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 朱小栋,郑诚,舒坚,陈振;关联规则的哈希修剪算法研究[J];安徽大学学报(自然科学版);2005年04期
2 宋世杰,胡华平,胡笑蕾;关联规则和序列模式算法在入侵检测系统中的应用[J];成都信息工程学院学报;2004年01期
3 行小帅,焦李成;数据挖掘的聚类方法[J];电路与系统学报;2003年01期
4 杨明,孙志挥,吉根林;一种基于分布式数据库的全局频繁项目集更新算法[J];东南大学学报(自然科学版);2002年06期
5 唐晓萍;数据挖掘与知识发现综述[J];电脑开发与应用;2002年04期
6 冯晨;张旭翔;;数据挖掘技术及算法综述[J];电脑知识与技术;2009年13期
7 王泽彬,金飞,李夏,王冠;Web数据挖掘技术及实现[J];哈尔滨工业大学学报;2005年10期
8 吕强,俞金寿;基于混合遗传算法的K-Means最优聚类算法[J];华东理工大学学报(自然科学版);2005年02期
9 孟小峰;Web数据管理研究综述[J];计算机研究与发展;2001年04期
10 卢正鼎,李兵,肖卫军,李瑞轩;基于CORBA/XML的多数据库系统研究与实现[J];计算机研究与发展;2002年04期
中国博士学位论文全文数据库 前6条
1 刘君强;海量数据挖掘技术研究[D];浙江大学;2003年
2 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
3 郭秀娟;基于关联规则数据挖掘算法的研究[D];吉林大学;2004年
4 向继东;基于数据挖掘的自适应入侵检测建模研究[D];武汉大学;2004年
5 熊家军;基于数据挖掘的入侵检测关键技术研究[D];华中科技大学;2004年
6 刘亚波;关联规则挖掘方法的研究及应用[D];吉林大学;2005年
中国硕士学位论文全文数据库 前4条
1 赵群礼;关联规则数据挖掘方法的研究和实现[D];西安科技大学;2005年
2 唐玉涛;基于数据挖掘的入侵检测研究[D];山东大学;2006年
3 吉磊;基于数据挖掘的入侵检测技术研究[D];上海交通大学;2007年
4 张健;关联分类算法研究及其系统实现[D];南京师范大学;2008年
【二级引证文献】
中国期刊全文数据库 前2条
1 赵娅;;机械工程中计算机测试系统的数据分析研究[J];制造业自动化;2012年10期
2 张炜;洪霞;;基于OPAC读者行为的知识发现研究[J];图书馆论坛;2011年01期
中国博士学位论文全文数据库 前2条
1 段丹青;入侵检测算法及关键技术研究[D];中南大学;2007年
2 林晓勇;频繁模式挖掘和动态维护的理论与方法研究[D];北京化工大学;2008年
中国硕士学位论文全文数据库 前5条
1 杨舒琴;基于日志的安全审计管理系统的研究与实现[D];北京邮电大学;2011年
2 赵涛;大流量高速网络环境下用户行为分析研究[D];重庆大学;2011年
3 潘小会;一种分布式入侵防御系统架构和关键算法研究[D];电子科技大学;2010年
4 俞洁;基于频繁模式的入侵检测算法的研究与改进[D];暨南大学;2012年
5 张洋;铁饼运动信息分析系统的研究与实现[D];北方工业大学;2012年
【二级参考文献】
中国期刊全文数据库 前5条
1 李新远,吴宇红,狄文远;基于数据发掘的入侵检测建模[J];计算机工程;2002年02期
2 胡华平,陈海涛,黄辰林,唐勇;入侵检测系统研究现状及发展趋势[J];计算机工程与科学;2001年02期
3 连一峰,戴英侠,王航;基于模式挖掘的用户行为异常检测[J];计算机学报;2002年03期
4 路松峰,卢正鼎;快速开采最大频繁项目集[J];软件学报;2001年02期
5 郭宏飞,周建常;实时数据及时态知识的表示[J];软件学报;1997年01期
【相似文献】
中国期刊全文数据库 前10条
1 王爱平;王占凤;陶嗣干;燕飞飞;;数据挖掘中常用关联规则挖掘算法[J];计算机技术与发展;2010年04期
2 谈恒贵;王文杰;李克双;;频繁项集挖掘算法综述[J];计算机仿真;2005年11期
3 张应征;成新红;;一种改进的关联规则挖掘算法在入侵检测中的应用研究[J];计算机安全;2011年02期
4 柳彦平,王文杰,荣江;频繁项集挖掘算法研究[J];微型机与应用;2005年04期
5 潘怡;杜红燕;;数据流频繁闭项集挖掘研究[J];长沙大学学报;2010年05期
6 程杰;;基于二进制的频繁项集挖掘新算法[J];电脑知识与技术;2009年13期
7 朱嘉贤;一个基于散列技术的关联规则挖掘算法[J];肇庆学院学报;2004年05期
8 章志明;黄龙军;余敏;黄明和;;一种动态的频繁项集挖掘算法[J];计算机工程;2006年24期
9 王朝辉;王婷婷;;一种快速的频繁项集挖掘算法[J];贵州工业大学学报(自然科学版);2006年06期
10 汪成亮;罗昌银;;一种基于组合方式改进的频繁项集挖掘算法[J];计算机系统应用;2010年01期
中国重要会议论文全文数据库 前10条
1 沈向余;李伟华;;几种关联规则挖掘算法的分析[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
2 陈晓云;李龙杰;马志新;白伸伸;王磊;;AFP-Miner:一种新高效的频繁项集挖掘算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
3 丁艳辉;王洪国;高明;谷建军;;一种基于矩阵的高效关联规则挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 王晨;朱永泰;汪卫;施伯乐;;高效地挖掘频繁图模式[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
5 程银波;司菁菁;;带有间隔约束的序列模式挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
6 郭平;陈黎;聂亚可;林勇;;以Apriori为基础的序列挖掘算法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
7 曹波伟;薛青;唐志武;任晓明;;面向军事基础数据的数据挖掘研究[A];2009系统仿真技术及其应用学术会议论文集[C];2009年
8 朱永泰;王晨;洪铭胜;汪卫;施伯乐;;ESPM——频繁子树挖掘算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 蔡国强;李川;范明;;一个高效的多维关联规则挖掘算法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
10 侯俊杰;李春平;;一种基于内存索引的频繁模式挖掘算法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 钟力 姚兰 梁中骐;抓住罪恶之“手”[N];网络世界;2004年
2 行健;启明星辰发布天阗入侵检测与管理系统V6.0[N];国际商报;2004年
3 ;NetScreen-IDP 500 高端入侵检测与防护设备[N];计算机世界;2003年
4 启明星辰信息技术有限公司总裁兼CEO 严望佳;启明星辰:追求产业创新[N];电脑商报;2008年
5 王明毅;入侵检测融合漏洞扫描技术带来产品新突破[N];中国石油报;2004年
6 Henry Wang;误报漏报是个难点[N];中国计算机报;2004年
7 ;如何选择和使用UTM设备[N];网络世界;2009年
8 北京 张率;防黑第一招[N];中国电脑教育报;2001年
9 李刚;打IDS“组合拳”[N];中国计算机报;2004年
10 ;入侵检测产品功能指标说明[N];网络世界;2001年
中国博士学位论文全文数据库 前10条
1 王卉;最大频繁项集挖掘算法及应用研究[D];华中科技大学;2004年
2 李海波;频繁子结构挖掘算法研究与应用[D];华中科技大学;2011年
3 毛伊敏;数据流频繁模式挖掘关键算法及其应用研究[D];中南大学;2011年
4 阮幼林;频繁模式挖掘算法及在入侵检测中的应用研究[D];华中科技大学;2004年
5 由育阳;数据流容错挖掘算法研究[D];哈尔滨工程大学;2011年
6 屠莉;流数据的频繁项挖掘及聚类的关键技术研究[D];南京航空航天大学;2009年
7 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
8 叶飞跃;关联规则及其元规则挖掘技术研究[D];南京航空航天大学;2006年
9 陈耿;面向中观审计的规则发现算法研究[D];东南大学;2005年
10 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 赵娟;一种基于矩阵的并行频繁项集挖掘算法研究与实现[D];兰州大学;2011年
2 王立波;基于滑动窗口的数据流频繁模式挖掘算法研究[D];燕山大学;2010年
3 蔡伟贤;关联分析在入侵检测中的研究与应用[D];广东工业大学;2011年
4 陈帅;基于垂直数据格式频繁项集挖掘算法的研究[D];燕山大学;2012年
5 张爱国;基于位置信息的精简频繁模式挖掘算法的研究[D];燕山大学;2011年
6 刘立新;数据流频繁模式挖掘算法研究[D];中南大学;2010年
7 肖仁财;序列模式挖掘算法研究与实现[D];江苏大学;2007年
8 许光宇;三维微阵列频繁闭模式挖掘算法的研究与实现[D];东北大学;2008年
9 商志会;关联规则挖掘算法的研究及其在网络入侵检测中的应用[D];同济大学;2006年
10 陈宇珽;数据挖掘技术在入侵检测中的应用[D];上海交通大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026