收藏本站
《华中科技大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

挖掘序列模式和结构化模式的精简集

王涛  
【摘要】: 在今天的信息社会中,人们已经拥有了大量的数据,迫切需要将这些数据转化为有用的信息和知识。在这样的背景下,数据挖掘这门新兴学科受到广泛的关注。数据挖掘是在大量的数据中寻找知识,其中,序列模式和结构化模式的挖掘是一个重要的数据挖掘问题,有着广泛的应用。 在序列模式的挖掘中,最为重要、最有影响力的算法包括GSP算法和PrefixSpan算法。这些算法都是挖掘频繁序列模式的全集,当序列模式的数量很大时,挖掘序列模式的全集不仅效率很低,而且效果也不好,因为要存储和理解这么多的序列模式是不现实的。解决这个问题的一种途径就是不再去挖掘序列模式的全集,而是只挖掘它的一个精简集。精简集保留了频繁序列模式的总体信息,但序列模式的数目大为减少,有助于用户理解挖掘结果,也有助于提高挖掘算法的效率。 精简的频繁序列模式基就是这样一种精简集,它是频繁序列模式全集的一个特殊子集,能用它来估计不在其中的序列模式的支持度,而且误差能保证在用户指定的误差上限内。有两种构造精简的频繁序列模式基的方法:第一种方法逐级检查所有的频繁序列模式,当一个频繁序列模式不能被它在精简基中的子模式估计支持度时,它才被加到精简基中;第二种方法用相对于一系列支持度阈值的最大序列模式构造精简的频繁序列模式基。在采用这种方法的算法中,给出了如何判断最大序列模式的方法,还设计了一些搜索空间剪枝技术,提前剪掉那些不可能生成最大序列模式的分支来加速挖掘过程。 压缩频繁序列模式集是针对频繁序列模式的全集太大这个问题的另一种解决方法。为了得到高质量的压缩效果,先对频繁序列模式聚簇,再从每个簇中挑选出有代表性的序列模式,使这些有代表性的序列模式的数目尽可能地少。一个贪婪算法和一个基于候选集的快速算法是压缩频繁序列模式集的有效算法。有代表性的序列模式集合也是频繁序列模式的一种精简集,实验结果表明它能取得很好的压缩效果。 树模式的挖掘比序列模式的挖掘更为困难,因为在树模式的挖掘中,子树的组合方式太多。而精简的频繁子树基由相对于一系列支持度阈值的最大频繁子树组成,它是频繁子树的一个精简集,可以用它来估计任一频繁子树的支持度,并能将误差控制在确定范围内。一个算法能用来从带标号的有根有序树的数据库中挖掘子树精简基,这个算法经过简单的扩展后也能用来挖掘有根无序树。该算法采用最右扩展的方式系统地生成频繁子树,采用的剪枝技术能减小搜索空间,合理安排的计算次序能提高计算的效率。 数据库中的频繁模式可以用于建立数据库索引。基于树模式的数据库索引首先挖掘频繁子树,并从中挑选出有判别力的子树作为索引属性,然后将索引属性集合中的子树转换成序列,并将索引组织成前缀树的形式。频繁子结构能揭示数据的内在特性,对于数据库修改也很稳定,用有判别力的频繁子树为树数据库构造索引,能显著地提高子树查询的性能。
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:TP311.13

【引证文献】
中国硕士学位论文全文数据库 前1条
1 陈硕;多相关时间序列异常模式挖掘框架的研究[D];东北大学;2008年
【参考文献】
中国期刊全文数据库 前8条
1 陆介平,刘月波,倪巍伟,刘同明,孙志挥;基于PrefixSpan的快速交互序列模式挖掘算法[J];东南大学学报(自然科学版);2005年05期
2 朱永泰,王晨,洪铭胜,汪卫,施伯乐;ESPM——频繁子树挖掘算法[J];计算机研究与发展;2004年10期
3 汪卫,周皓峰,袁晴晴,楼宇波,施伯乐;基于图论的频繁模式挖掘[J];计算机研究与发展;2005年02期
4 赵传申;孙志挥;张净;;基于投影分支的快速频繁子树挖掘算法[J];计算机研究与发展;2006年03期
5 盛思源,战守义,石耀斌;基于数据挖掘的入侵检测系统[J];计算机工程;2003年01期
6 吕静,王晓峰,Osei Adjei,Fiaz Hussain;序列模式图及其构造算法[J];计算机学报;2004年06期
7 邹翔,张巍,刘洋,蔡庆生;分布式序列模式发现算法的研究[J];软件学报;2005年07期
8 李建华,王晓峰;通用时间约束的序列模式挖掘[J];小型微型计算机系统;2005年06期
【共引文献】
中国期刊全文数据库 前10条
1 马帅,唐世渭,杨冬青,王腾蛟,高军;移动环境中的最大移动序列模式挖掘(英文)[J];北京大学学报(自然科学版);2004年03期
2 秦如新;田英杰;陈静;邓乃扬;张海斌;;双聚类的关联规则挖掘方法[J];北京工业大学学报;2009年04期
3 董辉;方晓;方跃胜;;一种时序关联规则挖掘算法的研究与实现[J];长春工程学院学报(自然科学版);2012年01期
4 邢容;;序列模式图可视化算法的研究与实现[J];中国城市经济;2010年10期
5 袁余民;傅鹂;葛玉森;;基于移动Agent的分布式安全审计系统的研究[J];重庆科技学院学报(自然科学版);2009年01期
6 庞敏;赵乙国;周海英;;改进的基于Web的频繁访问路径挖掘算法[J];测试技术学报;2009年03期
7 黄金;;基于频繁模式的蛋白质序列分类[J];东北农业大学学报;2008年05期
8 任家东;宗俊省;;一种基于规则表达式约束的序列模式增量式挖掘算法[J];燕山大学学报;2007年05期
9 任家东;周晓磊;;一种挖掘序列模式的增量式更新算法[J];燕山大学学报;2007年06期
10 丁艳辉;王洪国;高明;谷建军;;A New Parallel Algorithm for Mining Association Rules[J];Journal of DongHua University;2006年06期
中国重要会议论文全文数据库 前10条
1 姚伟力;王锡禄;宋俊德;;基于序列模式挖掘的告警相关性分析算法[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
2 单莘;;一种网络告警的增量式情景规则挖掘方法[A];中国通信学会第五届学术年会论文集[C];2008年
3 潘瑾;严勇;王晨;方晨;汪卫;施伯乐;;Chopper:一个高效的有序标号树频繁结构的挖掘算法[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
4 吴先荣;杨冬青;唐世渭;王腾蛟;;基于序列树的告警相关性分析[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 吕静;陈未如;刘俊;Osei Adjei;;并发分支模式挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 杨晓明;王晨;汪卫;张守志;施伯乐;;频繁项集的精简表达与还原问题研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 吴铁峰;彭宏;张东娜;;一种网络告警的增量挖掘算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 朱永泰;王晨;洪铭胜;汪卫;施伯乐;;ESPM——频繁子树挖掘算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 牛兴雯;杨冬青;唐世渭;王腾蛟;;OSAF-tree——可迭代的移动序列模式挖掘及增量更新方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 程银波;司菁菁;;带有间隔约束的序列模式挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国博士学位论文全文数据库 前10条
1 李彤岩;基于数据挖掘的通信网告警相关性分析研究[D];电子科技大学;2010年
2 程文聪;面向大规模网络安全态势分析的时序数据挖掘关键技术研究[D];国防科学技术大学;2010年
3 叶红云;面向金融营销问题的个性化推荐方法研究[D];合肥工业大学;2011年
4 朱辉生;基于情节规则匹配的数据流预测研究[D];复旦大学;2011年
5 林冠洲;网络流量识别关键技术研究[D];北京邮电大学;2011年
6 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
7 邹晓红;用于图分类的频繁子结构挖掘算法研究[D];燕山大学;2011年
8 刘维;生物序列模式挖掘与识别算法的研究[D];南京航空航天大学;2010年
9 杨钤雯;序列模式挖掘方法及Web使用挖掘研究[D];天津大学;2010年
10 李海波;频繁子结构挖掘算法研究与应用[D];华中科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 史文财;省级政务网安全检测系统的设计与实现[D];哈尔滨工程大学;2010年
2 任芳;时间序列数据挖掘研究[D];辽宁师范大学;2010年
3 冯兴祥;关联规则挖掘在高校招生录取中的应用[D];合肥工业大学;2010年
4 陈晶;基于序列模式挖掘算法的入侵检测研究[D];华东师范大学;2011年
5 丁大伟;电子交易中软件运行时行为分析与预测[D];湖南工业大学;2010年
6 白霜;DNA序列的最大频繁模式挖掘[D];南昌大学;2010年
7 方正儒;一种基于密度引力的聚类算法及其在入侵检测中的应用[D];南昌大学;2010年
8 杜焕;铁路隧道衬砌状态检测数据管理系统的研究与实现[D];北京交通大学;2010年
9 张文秀;聚类技术在网络入侵检测中的研究与应用[D];电子科技大学;2010年
10 唐松;基于数据挖掘的高校评教系统设计与实现[D];电子科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 管恩政,周春光,王喆,徐秀娟;频繁序列模式挖掘算法[J];吉林大学学报(信息科学版);2005年03期
2 IP Waicheung;;Testing heteroscedasticity by wavelets in a nonparametric regression model[J];Science in China(Series A:Mathematics);2006年09期
3 张坤;朱扬勇;;无重复投影数据库扫描的序列模式挖掘算法[J];计算机研究与发展;2007年01期
4 朱玉全;宋余庆;;频繁闭项目集挖掘算法研究[J];计算机研究与发展;2007年07期
5 王涛;李舟军;颜跃进;陈火旺;;数据流挖掘分类技术综述[J];计算机研究与发展;2007年11期
6 俞单庆;吉根林;;基于数据流的序列模式挖掘算法[J];江南大学学报(自然科学版);2007年06期
7 赖邦传,陈晓红,周辉;基于数据仓库的高效关联规则的挖掘[J];计算机工程;2004年05期
8 郑再象;徐诚;陈效华;李峰;;基于控制图异常模式自动识别的故障诊断[J];机械设计;2005年11期
9 嵇晓,鲍玉斌,常钊,宋宝燕,于戈;工业数据仓库设计方法及其在质量分析中的应用[J];控制与决策;2001年02期
10 潘云鹤;王金龙;徐从富;;数据流频繁模式挖掘研究进展[J];自动化学报;2006年04期
中国博士学位论文全文数据库 前1条
1 李钢;基于SPC的计算机集成质量控制系统研究[D];合肥工业大学;2007年
中国硕士学位论文全文数据库 前7条
1 富珍;统计过程控制(SPC)技术在质量管理中的应用研究及实现[D];武汉理工大学;2006年
2 苏海英;数据挖掘中关联规则算法的分析与优化研究[D];吉林大学;2006年
3 朱志刚;小批量多品种的SPC控制图研究[D];上海交通大学;2006年
4 常浩;多最小支持度关联规则挖掘研究[D];西北大学;2007年
5 闫允;时间序列模式挖掘算法研究[D];太原理工大学;2007年
6 马安胜;多维数据关联规则挖掘研究及系统实现[D];吉林大学;2007年
7 张可新;基于数据仓库的企业运营决策支持系统[D];吉林大学;2007年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 贾国栋;多相关周期性时间序列上的异常模式关联规则挖掘[D];东北大学;2010年
【二级参考文献】
中国期刊全文数据库 前5条
1 邓明荣,叶福根,史烈,潘云鹤;挖掘泛化序列模式的一种有效方法[J];浙江大学学报(理学版);2002年04期
2 朱永泰,王晨,洪铭胜,汪卫,施伯乐;ESPM——频繁子树挖掘算法[J];计算机研究与发展;2004年10期
3 王晓峰;王天然;;基于双空间搜索的频繁项挖掘方法[J];计算机科学;2002年04期
4 邹翔,张巍,蔡庆生,王清毅;大型数据库中的高效序列模式增量式更新算法[J];南京大学学报(自然科学版);2003年02期
5 朱树人,李伟琴;入侵检测技术研究[J];计算机工程与设计;2001年04期
【相似文献】
中国期刊全文数据库 前10条
1 王兴鹏,沙金;利用Apriori算法进行序列模式挖掘[J];现代计算机;2002年10期
2 邹翔,张巍,蔡庆生,王清毅;大型数据库中的高效序列模式增量式更新算法[J];南京大学学报(自然科学版);2003年02期
3 吴卫华,袁宁;基于序列模式的关联规则Apriori算法的研究与优化[J];山东机械;2003年05期
4 宋世杰,胡华平,胡笑蕾;关联规则和序列模式算法在入侵检测系统中的应用[J];成都信息工程学院学报;2004年01期
5 杨学兵,刘胜军,蔡庆生;一种实时过程控制中的数据挖掘算法研究[J];计算机应用;1999年09期
6 胡笑蕾,胡华平,宋世杰;数据挖掘算法在入侵检测系统中的应用[J];计算机应用研究;2004年07期
7 张兵,聂永红,林士敏;NPSP:一种高效的序列模式增量挖掘算法[J];广西师范大学学报(自然科学版);2004年04期
8 龚惠群,黄超,彭江平;具有双时间维约束的股票序列模式挖掘[J];计算机工程;2003年20期
9 郭跃斌;翟延富;董祥军;;序列模式的关联规则在彩票分析中的应用研究[J];山东轻工业学院学报(自然科学版);2008年01期
10 周斌,吴泉源,高洪奎;序列模式挖掘的增量式算法的设计原则[J];计算机研究与发展;2000年10期
中国重要会议论文全文数据库 前10条
1 童咏昕;张媛媛;袁玫;马世龙;于丹;赵莉;;一种挖掘压缩序列模式的有效算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
2 丁祥武;;序列模式的可信度[A];第十六届全国数据库学术会议论文集[C];1999年
3 周常恩;谢伙生;白清源;谢丽聪;张莹;;挖掘邻近序列模式的一个高效算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 张琪;朱秋云;朱绍文;姬朝阳;魏苑琦;陈亮;;对一种序列模式的增量式算法的改进[A];2005年中国智能自动化会议论文集[C];2005年
5 朱扬勇;郭德培;施伯乐;;数据库中序列模式的增量数据采矿技术[A];数据库研究进展97——第十四届全国数据库学术会议论文集(上)[C];1997年
6 程银波;司菁菁;;带有间隔约束的序列模式挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
7 赵桦;曲飞;;序列模式挖掘算法在Web挖掘上的应用[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
8 姚伟力;王锡禄;宋俊德;;基于序列模式挖掘的告警相关性分析算法[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
9 丁有伟;胡孔法;陈崚;;一种RFID位置序列挖掘方法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
10 樊世燕;彭玉清;贾莲;;关于广播收听调查领域中数据处理问题的研究[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
中国重要报纸全文数据库 前4条
1 蔡建生;跨国公司为什么会“出事”?[N];中国经营报;2004年
2 邬建荣;上海双菱“智能”集中客户数据[N];计算机世界;2004年
3 张立明;数据挖掘之道[N];网络世界;2003年
4 ;智能决策为企业导航[N];计算机世界;2001年
中国博士学位论文全文数据库 前10条
1 汤春蕾;交易序列数据挖掘研究[D];复旦大学;2011年
2 佘春东;数据挖掘算法分析及其并行模式研究[D];电子科技大学;2004年
3 徐敏;基于数据挖掘的Web信息检索研究[D];南京航空航天大学;2006年
4 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
5 佟强;科学数据网格中数据挖掘技术研究[D];中国科学院研究生院(计算技术研究所);2006年
6 贾哲;分布式环境中信息挖掘与隐私保护相关技术研究[D];北京邮电大学;2012年
7 Azhar Mahmood;[D];华中科技大学;2013年
8 郑家顺;转录因子结合位点和组合调控模式的研究[D];清华大学;2005年
9 马进;加载隐私保护的网络安全综合管理关键技术研究[D];上海交通大学;2012年
10 PHAM THI THIET;基于前缀树结构的序列模式挖掘算法研究[D];湖南大学;2013年
中国硕士学位论文全文数据库 前10条
1 孟霞;泛在网络中情景感知业务的实现及用户移动序列模式研究[D];北京邮电大学;2010年
2 田彬;基因启动子序列模式建模与发现[D];天津大学;2012年
3 陈登曦;软件漏洞分析中含时间间隔的加权序列模式算法研究[D];燕山大学;2013年
4 李明月;基于约束的闭序列模式挖掘算法的研究[D];燕山大学;2012年
5 杨天霞;基于序列模式的序列聚类挖掘算法研究[D];西北师范大学;2010年
6 崔文亮;基于序列模式的手机病毒挖掘系统的设计与实现[D];北京邮电大学;2013年
7 苗东菁;不确定序列模式发现与查询算法的研究[D];哈尔滨工业大学;2011年
8 伯明超;基于序列模式的Web挖掘的研究[D];长春理工大学;2012年
9 王伟娜;基于投影位置的序列模式挖掘算法研究与应用[D];广西大学;2012年
10 韩高伟;基于前缀序列树的数据流序列模式算法研究[D];燕山大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026