收藏本站
《复旦大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于情节规则匹配的数据流预测研究

朱辉生  
【摘要】:随着互联网、数据库和嵌入式技术的飞速发展以及现实应用需求的持续推动,一种被称为数据流的全新数据类型已广泛应用在传感器数据处理、网络安全监控、金融证券管理、事务日志分析等众多领域。与传统数据库截然不同,由一系列值对(事件类型,时间戳)构成的数据流具有高速、无界、连续、时变的特点,这些特点使得面向传统数据库的数据挖掘算法难以直接应用到数据流的分析中。作为数据流分析的重要任务之一,数据流预测在面临巨大挑战的同时也迎来了前所未有的应用机遇,并已成为学术界和工业界的研究热点。本文在总结国内外相关研究工作的基础上,针对数据流预测涉及的频繁情节挖掘、频繁闭情节挖掘、无冗余情节规则抽取、情节规则匹配等四个关键问题展开了深入探讨,形成了一个数据流预测的研究体系,主要贡献包括: 1.提出了一个事件序列上的频繁情节挖掘算法MANEPI。频繁情节刻画了现实应用中用户或系统的行为。现有的频繁情节挖掘算法大多基于最小发生或非重叠发生来计算一个情节的支持度,容易导致情节发生的“过计数”问题或不能很好地刻画一个情节中事件类型之间的紧随关系。另外,这些算法均采用了与Apriori算法一样的广度优先搜索策略,需要多遍扫描事件序列,并且产生了大量的候选情节。然而,算法MANEPI基于最小且非重叠发生的概念来计算一个情节的支持度,并采用深度优先的搜索策略,只需单遍扫描事件序列且不产生任何候选情节。此外,MANEPI利用情节的Apriori性质避免了不必要的情节增长,进一步缩小了频繁情节的搜索空间。理论分析和实验评估证明MANEPI具有较高的挖掘效率和挖掘质量。 2.提出了一个事件序列上的频繁闭情节挖掘算法FCEMiner。频繁闭情节集是所有频繁情节的一个无损压缩表示。尽我们所知,Clo_episode[58]是目前仅有的一个频繁闭情节挖掘算法。尽管只需单遍扫描事件序列,但是Clo_episode采用了广度优先的搜索策略,在挖掘过程中产生了大量的候选情节。另外,该算法基于最小发生来计算一个情节的支持度,也会导致情节发生的“过计数”问题。然而,算法FCEMiner采用了与MANEPI一样的搜索策略和支持度定义来发现频繁情节的简约且完备集,并利用特殊前向扩展的非闭一致性避免了冗余的闭合性检查,进一步缩小了频繁闭情节的搜索空间,加速了挖掘过程。理论分析和实验评估证明FCEMiner能够高效地发现事件序列上的频繁闭情节。 3.提出了一个事件序列上的无冗余情节规则抽取算法Extractor。情节规则描述了频繁情节之间的因果关系。现有的情节规则抽取算法主要存在三个问题:第一,基于滑动窗口或最小发生来计算一个情节的支持度,致使频繁情节的挖掘质量不高;第二,直接由频繁情节产生情节规则,导致规则数量过于庞大且存在冗余;第三,尽管利用一些修剪技术来筛选冗余的情节规则,但这种后期的修剪处理增加了算法的时间代价。然而,算法Extractor采用最小且非重叠发生的支持度定义和深度优先的搜索策略来发现频繁闭情节及其生成子,保证了频繁闭情节及其生成子的挖掘质量和挖掘效率;利用非生成子情节的Apriori性质,避免了冗余的生成子判断;直接由频繁闭情节及其生成子来产生无冗余情节规则,提高了情节规则的生成质量和生成效率。理论分析和实验评估证明Extractor能够有效抽取给定事件序列上所有的无冗余情节规则。 4.提出了一个数据流上基于情节规则匹配的预测算法Predictor。研究历史流数据的潜在规律并应用这些规律对未来流数据作出预测,能够为许多现实应用提供重要的决策支持。现有的数据流预测算法大多采用回归分析或规则匹配的方法。回归分析方法预测速度快,但只适于线性数据预测;规则匹配方法可预测线性和非线性数据,但存在规则形式严格、预测区间受限或过时、规则过于匹配等问题。然而,算法Predictor使用无冗余情节规则作为待匹配规则,保证了待匹配规则内涵的代表性和形式的一般性。预测时Predictor为每个情节规则分别使用了一个自动机,通过单遍扫描数据流来同时跟踪这些自动机的状态变迁,以搜索每个规则前件最近的最小且非重叠发生,这样不仅将无界的数据流映射到有限的状态空间,而且避免了对情节规则的过于匹配。另外,Predictor预测的结果是未来多个情节的发生区间和发生概率。理论分析和实验评估证明Predictor具有较高的预测效率和预测精度。 综上所述,本文针对数据流预测涉及的频繁情节挖掘、频繁闭情节挖掘、无冗余情节规则抽取、情节规则匹配等四个关键问题展开了深入探讨,并提出了有效的解决方法,理论分析与实验评估表明本文提出的算法对于推动数据流预测的研究具有一定的理论意义和应用价值。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP311.13

【共引文献】
中国期刊全文数据库 前10条
1 马帅,唐世渭,杨冬青,王腾蛟,高军;移动环境中的最大移动序列模式挖掘(英文)[J];北京大学学报(自然科学版);2004年03期
2 李丹;郭放;;节能变压器制造系统中的数据流管理系统研究[J];变压器;2009年02期
3 王金栋;张磊;丁秋林;黄添强;;基于立体重叠网络的网管模型[J];吉林大学学报(信息科学版);2006年01期
4 董辉;方晓;方跃胜;;一种时序关联规则挖掘算法的研究与实现[J];长春工程学院学报(自然科学版);2012年01期
5 李洪奇;李雄炎;谭锋奇;郭海峰;于红岩;;基于数据挖掘技术的测井评价方法[J];测井技术;2009年01期
6 黄金;;基于频繁模式的蛋白质序列分类[J];东北农业大学学报;2008年05期
7 武珊珊;谷峪;岳德君;于戈;;一种数据流上基于截止期的多查询过载预测模型[J];东北大学学报(自然科学版);2007年07期
8 谷峪;李晓静;许嘉;于戈;;支持复杂语义的数据流滑动窗口连接建模和查询优化[J];东北大学学报(自然科学版);2008年11期
9 任家东;宗俊省;;一种基于规则表达式约束的序列模式增量式挖掘算法[J];燕山大学学报;2007年05期
10 任家东;周晓磊;;一种挖掘序列模式的增量式更新算法[J];燕山大学学报;2007年06期
中国重要会议论文全文数据库 前10条
1 姚伟力;王锡禄;宋俊德;;基于序列模式挖掘的告警相关性分析算法[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
2 单莘;;一种网络告警的增量式情景规则挖掘方法[A];中国通信学会第五届学术年会论文集[C];2008年
3 潘瑾;严勇;王晨;方晨;汪卫;施伯乐;;Chopper:一个高效的有序标号树频繁结构的挖掘算法[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
4 吴先荣;杨冬青;唐世渭;王腾蛟;;基于序列树的告警相关性分析[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 尹婷;李红燕;;窗口模型下数据流查询流水化执行的研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 吕静;陈未如;刘俊;Osei Adjei;;并发分支模式挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 吴铁峰;彭宏;张东娜;;一种网络告警的增量挖掘算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 苏东;宋宝燕;杨兴华;欧征宇;于亚新;于戈;;基于滑动窗口语义的聚集计算方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 武珊珊;宋宝燕;袁锋;于亚新;于戈;;数据流模型研究[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 朱永泰;王晨;洪铭胜;汪卫;施伯乐;;ESPM——频繁子树挖掘算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 李彤岩;基于数据挖掘的通信网告警相关性分析研究[D];电子科技大学;2010年
2 杨雪榕;卫星跟飞编队控制问题研究[D];国防科学技术大学;2010年
3 程文聪;面向大规模网络安全态势分析的时序数据挖掘关键技术研究[D];国防科学技术大学;2010年
4 叶红云;面向金融营销问题的个性化推荐方法研究[D];合肥工业大学;2011年
5 林冠洲;网络流量识别关键技术研究[D];北京邮电大学;2011年
6 朱达;基于事件的服务协同及通信服务提供技术研究[D];北京邮电大学;2011年
7 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
8 刘维;生物序列模式挖掘与识别算法的研究[D];南京航空航天大学;2010年
9 侯东风;流式数据多维建模与查询关键技术研究[D];国防科学技术大学;2010年
10 甘亮;面向网络安全监控的流数据处理技术研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 景三东;Web对象可缓存性与一致性问题研究[D];郑州大学;2010年
2 史文财;省级政务网安全检测系统的设计与实现[D];哈尔滨工程大学;2010年
3 韩君;近期数据流频繁项集挖掘[D];大连理工大学;2010年
4 卢晓伟;基于GPU的数据流处理方法研究[D];大连理工大学;2010年
5 刘畅;基于概要的数据流管理系统的研究与实现[D];大连理工大学;2010年
6 任芳;时间序列数据挖掘研究[D];辽宁师范大学;2010年
7 冯兴祥;关联规则挖掘在高校招生录取中的应用[D];合肥工业大学;2010年
8 陈晶;基于序列模式挖掘算法的入侵检测研究[D];华东师范大学;2011年
9 周绪倩;基于电子商务的Web数据挖掘系统架构研究[D];河北工程大学;2010年
10 白霜;DNA序列的最大频繁模式挖掘[D];南昌大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 郑诚,欧阳为民;事件序列中频繁并行情节的增量式发现算法[J];安徽大学学报(自然科学版);1999年02期
2 魏正红,欧阳为民,蔡庆生;事件序列中频繁串行情节的增量式发现算法[J];小型微型计算机系统;1999年09期
3 于枫;高德远;王敏;;频繁情节挖掘算法在伪装检测中的应用[J];计算机工程与应用;2009年03期
4 李斌;数据流处理自动化和重新设计[J];管理科学文摘;1997年05期
5 郭道荣,刘卫宁;多维频繁情节挖掘在电信告警信息分析中的应用[J];计算机工程与应用;2004年02期
6 曲文龙;杨炳儒;张克君;;基于广义后缀树的事件序列频繁情节挖掘算法[J];北京科技大学学报;2006年05期
7 曲文龙;王彦琪;张敬敏;杨炳儒;;基于广义后缀树的事件流频繁情节在线挖掘算法[J];微电子学与计算机;2007年12期
8 于枫,马晓春,高翔;频繁情节挖掘方法在入侵检测中的应用[J];计算机应用研究;2005年07期
9 赵以强;张龙波;;数据流管理系统研究现状分析[J];科技信息;2010年28期
10 王金栋;张磊;丁秋林;黄添强;;一种支持分布式数据流处理的双层重叠网络模型[J];应用科学学报;2006年04期
中国重要会议论文全文数据库 前10条
1 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 魏永超;陈立军;;数据流上复杂事件处理系统Eagle的设计与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 蔡致远;熊方;钱卫宁;周傲英;;核合并分析及其在数据流密度估计上的应用[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
4 尹婷;李红燕;;窗口模型下数据流查询流水化执行的研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 宋宝燕;陆岩;张俊宁;;数据流上的一种适应性查询优化及调度策略[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 吕雁飞;武珊珊;谷峪;许嘉;于戈;;一种数据流上统计性查询QoS的保证方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 武珊珊;宋宝燕;袁锋;于亚新;于戈;;数据流模型研究[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
8 周锐;肖川;王国仁;韩东红;霍欢;;数据流滑动窗口连接上的卸载技术的研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
9 霍欢;王国仁;陈庆奎;彭敦陆;;基于Hole-Filler模型的XML数据流上的SLCA算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
10 闫朝升;李建中;李金宝;;数据流上滑动窗口技术的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国重要报纸全文数据库 前10条
1 计算机世界实验室 吴挺;Intel的专业“核动力”[N];计算机世界;2007年
2 北京 冬梅;P4时代真的来了吗[N];中国电脑教育报;2001年
3 ;立体防护“中枢神经系统”[N];网络世界;2003年
4 ;NetScreen-IDP 500 高端入侵检测与防护设备[N];计算机世界;2003年
5 甘久斌;如何有效管理宽带用户[N];通信产业报;2002年
6 李勇;降低投资70%[N];中国计算机报;2003年
7 张弛;NP架构防火墙性价比显锋芒[N];中国高新技术产业导报;2006年
8 北京中科红旗软件技术有限公司研发工程师 时坚;编写Iptables规则脚本[N];中国计算机报;2006年
9 ;NP架构防火墙 性价比显锋芒[N];政府采购信息报;2006年
10 赵晓涛;金融业挖掘UTM力量[N];网络世界;2009年
中国博士学位论文全文数据库 前10条
1 朱辉生;基于情节规则匹配的数据流预测研究[D];复旦大学;2011年
2 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
3 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
4 郭立超;数据流挖掘若干技术研究及其在电信行业的应用[D];浙江大学;2011年
5 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
6 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
7 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
8 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
9 Mahmoud Sami Soliman;[D];中南大学;2010年
10 由育阳;数据流容错挖掘算法研究[D];哈尔滨工程大学;2011年
中国硕士学位论文全文数据库 前10条
1 郭道荣;基于数据挖掘的电信网络故障诊断技术的研究[D];重庆大学;2003年
2 邹东升;数据挖掘在电信告警中的应用研究[D];重庆大学;2002年
3 李有生;一种改进的数据流处理算法的研究与实现[D];吉林大学;2010年
4 何登成;数据流上复杂序查询的研究与实现[D];浙江大学;2010年
5 何江燕;基于数据流的聚类分析算法研究[D];兰州交通大学;2010年
6 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
7 李燕;面向含噪数据流的概念漂移集成分类研究[D];合肥工业大学;2011年
8 罗秀;数据流在线分类算法的研究与实现[D];东北大学;2009年
9 由欣;基于有向图构造的数据流预测算法的研究[D];哈尔滨工程大学;2011年
10 姚晨;高纬数据流的异常检测[D];电子科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026