收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

挖掘序列模式和结构化模式的精简集

王涛  
【摘要】: 在今天的信息社会中,人们已经拥有了大量的数据,迫切需要将这些数据转化为有用的信息和知识。在这样的背景下,数据挖掘这门新兴学科受到广泛的关注。数据挖掘是在大量的数据中寻找知识,其中,序列模式和结构化模式的挖掘是一个重要的数据挖掘问题,有着广泛的应用。 在序列模式的挖掘中,最为重要、最有影响力的算法包括GSP算法和PrefixSpan算法。这些算法都是挖掘频繁序列模式的全集,当序列模式的数量很大时,挖掘序列模式的全集不仅效率很低,而且效果也不好,因为要存储和理解这么多的序列模式是不现实的。解决这个问题的一种途径就是不再去挖掘序列模式的全集,而是只挖掘它的一个精简集。精简集保留了频繁序列模式的总体信息,但序列模式的数目大为减少,有助于用户理解挖掘结果,也有助于提高挖掘算法的效率。 精简的频繁序列模式基就是这样一种精简集,它是频繁序列模式全集的一个特殊子集,能用它来估计不在其中的序列模式的支持度,而且误差能保证在用户指定的误差上限内。有两种构造精简的频繁序列模式基的方法:第一种方法逐级检查所有的频繁序列模式,当一个频繁序列模式不能被它在精简基中的子模式估计支持度时,它才被加到精简基中;第二种方法用相对于一系列支持度阈值的最大序列模式构造精简的频繁序列模式基。在采用这种方法的算法中,给出了如何判断最大序列模式的方法,还设计了一些搜索空间剪枝技术,提前剪掉那些不可能生成最大序列模式的分支来加速挖掘过程。 压缩频繁序列模式集是针对频繁序列模式的全集太大这个问题的另一种解决方法。为了得到高质量的压缩效果,先对频繁序列模式聚簇,再从每个簇中挑选出有代表性的序列模式,使这些有代表性的序列模式的数目尽可能地少。一个贪婪算法和一个基于候选集的快速算法是压缩频繁序列模式集的有效算法。有代表性的序列模式集合也是频繁序列模式的一种精简集,实验结果表明它能取得很好的压缩效果。 树模式的挖掘比序列模式的挖掘更为困难,因为在树模式的挖掘中,子树的组合方式太多。而精简的频繁子树基由相对于一系列支持度阈值的最大频繁子树组成,它是频繁子树的一个精简集,可以用它来估计任一频繁子树的支持度,并能将误差控制在确定范围内。一个算法能用来从带标号的有根有序树的数据库中挖掘子树精简基,这个算法经过简单的扩展后也能用来挖掘有根无序树。该算法采用最右扩展的方式系统地生成频繁子树,采用的剪枝技术能减小搜索空间,合理安排的计算次序能提高计算的效率。 数据库中的频繁模式可以用于建立数据库索引。基于树模式的数据库索引首先挖掘频繁子树,并从中挑选出有判别力的子树作为索引属性,然后将索引属性集合中的子树转换成序列,并将索引组织成前缀树的形式。频繁子结构能揭示数据的内在特性,对于数据库修改也很稳定,用有判别力的频繁子树为树数据库构造索引,能显著地提高子树查询的性能。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘俊侠;;使用有向图挖掘时间间隔序列模式[J];计算机科学与探索;2008年06期
2 黄小红;陈丽华;王倩;戴昕;;多属性约束事件序列的关联规则挖掘方法[J];微计算机信息;2009年03期
3 师鸣若;;基于邻接序列模式挖掘的网络流量分析[J];电脑开发与应用;2010年10期
4 汪永旗;张军;;序列模式挖掘在旅游行程分析中的应用研究[J];微计算机信息;2011年03期
5 周晔,杨天奇;一种基于置信度的异常检测模型与设计[J];计算机仿真;2005年01期
6 陶再平;俞瑞钊;;序列模式增量式更新的快速算法[J];计算机应用;2006年S2期
7 倪志伟;叶红云;曹欢欢;;基于均值约束满足度剪枝策略的高效序列模式挖掘算法[J];中国科学技术大学学报;2007年02期
8 吴楠;胡学钢;;基于PrefixSpan序列模式挖掘的一种改进算法[J];电脑知识与技术(学术交流);2007年20期
9 俞单庆;吉根林;;基于数据流的序列模式挖掘算法[J];江南大学学报(自然科学版);2007年06期
10 李锡娟;刘锋;闫娜娜;徐杰;耿波;;PrefixSpan算法与CloSpan算法的分析与研究[J];计算机技术与发展;2008年01期
11 马传香;宋建华;;IDSG:一种新的频繁序列挖掘算法[J];湖北大学学报(自然科学版);2008年01期
12 汪林林;范军;;基于PrefixSpan的序列模式挖掘改进算法[J];计算机工程;2009年23期
13 徐涛;;带兴趣度的序列概念格的最大模式挖掘[J];科技信息;2010年14期
14 宁朝波;秦亮曦;张恺;;多序列环境下的序列模式挖掘算法[J];微计算机信息;2010年36期
15 马帅,唐世渭,杨冬青,王腾蛟,高军;移动环境中的最大移动序列模式挖掘(英文)[J];北京大学学报(自然科学版);2004年03期
16 祝效普,梁洪峻;序列模式挖掘在网络业务流分析中的应用[J];计算机应用;2004年08期
17 邹翔,张巍,刘洋,蔡庆生;分布式序列模式发现算法的研究[J];软件学报;2005年07期
18 庄军;郭平;周杨;周劲;蔡日旭;;路由器日志序列模式挖掘[J];计算机科学;2005年11期
19 陈恩红;李铜舒;王舒;;一种基于Max Gap约束的高效序列模式挖掘算法[J];计算机工程与科学;2006年10期
20 胡学钢;张圆圆;;一种挖掘带时间约束序列模式的改进算法[J];智能系统学报;2007年02期
中国重要会议论文全文数据库 前10条
1 李润恒;贾焰;金鑫;;一种面向网络安全的序列模式挖掘方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 李晟;姜青山;郭顺;王备战;;一种优化的蛋白质序列模式挖掘方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 朱辉生;李存华;;序列模式挖掘的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 赵畅;杨冬青;唐世渭;郭迎春;;Web日志序列模式挖掘工具SPMiner的设计[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 牛兴雯;杨冬青;唐世渭;王腾蛟;;OSAF-tree——可迭代的移动序列模式挖掘及增量更新方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 任家东;解玉洁;何海涛;张爱国;;基于改进前缀树PStree的最大序列模式挖掘[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 刘琪;牛文静;顾兆军;;基于API调用序列的恶意代码动态分析方法研究[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
8 窦赫男;刘正捷;夏季;;序列模式挖掘在网站可用性分析研究上的应用[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国人机交互学术会议(CHCI'06)论文集[C];2006年
9 何星星;谢伙生;;流数据中一种高效剪枝的频繁序列挖掘算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 周涛;;基于数据挖掘的入侵检测日志分析技术研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年
中国博士学位论文全文数据库 前10条
1 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
2 谢飞;带有通配符的序列模式挖掘研究[D];合肥工业大学;2011年
3 杨钤雯;序列模式挖掘方法及Web使用挖掘研究[D];天津大学;2010年
4 刘维;生物序列模式挖掘与识别算法的研究[D];南京航空航天大学;2010年
5 兰秋军;金融时间序列隐含模式挖掘方法及其应用研究[D];湖南大学;2005年
6 金阳;基于概念格模型的序列模式挖掘算法研究[D];吉林大学;2007年
7 马海兵;频繁模式挖掘相关技术研究[D];复旦大学;2005年
8 宋世杰;基于序列模式挖掘的误用入侵检测系统及其关键技术研究[D];国防科学技术大学;2005年
9 熊赟;生物序列模式挖掘与聚类研究[D];复旦大学;2007年
10 叶红云;面向金融营销问题的个性化推荐方法研究[D];合肥工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 王永强;基于DF2Ls的序列模式挖掘研究[D];兰州大学;2011年
2 任芳;时间序列数据挖掘研究[D];辽宁师范大学;2010年
3 魏龙;GML时空序列模式挖掘研究[D];江西理工大学;2011年
4 窦赫男;序列模式挖掘在网站可用性分析研究上的应用[D];大连海事大学;2006年
5 祝效普;WEB用户访问序列模式挖掘[D];天津大学;2005年
6 梁伟;Web使用挖掘在电子商务推荐系统中的应用研究[D];天津大学;2004年
7 管恩政;序列模式挖掘算法研究[D];吉林大学;2005年
8 仇大伟;基于序列数据库的数据挖掘系统的设计和研究[D];山东科技大学;2005年
9 郭跃斌;基于序列模式的正负关联规则挖掘技术[D];山东轻工业学院;2008年
10 刘磊;基于序列模式挖掘的入侵检测算法的研究[D];中国科学技术大学;2009年
中国重要报纸全文数据库 前1条
1 惠琳;数据挖掘 提升核心竞争力[N];首都建设报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978