收藏本站
《华中科技大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

数据流频繁模式挖掘及数据预测算法研究

陈辉  
【摘要】: 在过去的几年里,数据流广泛出现在传感器网络、金融证券管理、网络监控、Web日志以及通信数据在线分析等新型应用领域中。由于数据流中数据的规模一般都十分庞大、且增长迅速,因此,有限的存储空间中根本无法完整地保存数据流上的全部数据,这给数据流上的数据处理带来了巨大的挑战。此外,由于数据流数据的连续性与流动性,随着新的流数据连续到达,数据流所包含的知识信息总是在连续不断地变化。而对于实际的数据流应用而言,挖掘出数据流上知识的变化趋势往往比挖掘知识本身更为重要。因此,人们往往更希望挖掘出数据流上最近的某个滑动时间窗口内交易数据所包含的知识信息。 挖掘数据流上的频繁模式在数据流的应用中有着重要研究意义,例如:在网络监控中,对应于异常流量的频繁模式可能意味着存在网络攻击或者网络拥塞;在商业销售记录中,频繁模式总是反映那些热门销售的产品以及它们之间的关联关系;而在传感器网络数据管理中,挖掘其中的频繁数据集可以有助于去估计那些丢失的数据值。然而,由于流数据的特点,传统的静态数据库挖掘方法不可能直接应用流数据的频繁模式挖掘,而必须研究新的数据流频繁模式挖掘方法。数据流上的频繁模式挖掘算法要求能够在单遍扫描流数据的基础上增量处理连续不断到达的流数据,并用尽可能小的代价维护数据流上最新的数据大纲。此外,随着新到达的流数据进入滑动时间窗口,窗口内最古老的历史数据将从窗口中移出而变得过期。为了消除历史流数据对当前挖掘结果的影响,数据流滑动时间窗口内频繁模式挖掘方法还需要定期删除数据大纲上维护的历史流数据的模式信息,从而提高模式挖掘的正确性。 数据流最近的频繁模式挖掘方法应用模式树(RFP-tree)增量地维护数据流上新到达流数据所包含的模式信息,并周期性地对模式树进行剪枝,删除那些过期流数据所包含的模式分枝以及不频繁的模式分枝。RFP-tree以维护数据流上最近的不多于2N个流数据所包含的模式信息为代价,保守地维护了数据流上最近的大小为N的滑动时间窗口内流数据的全部频繁模式信息。方法还应用保守的计算策略计算模式在滑动时间窗口内的近似支持数,而由保守计算策略得到的模式的近似支持数总是不小于模式的真实支持数的,因此,方法总能够保证滑动时间窗口内模式挖掘的覆盖率达到100%。 为了适应性维护数据流上大小可变的滑动时间窗口内的频繁模式,数据流任意大小滑动时间窗口内频繁模式挖掘方法应用滑动窗口树(SW-tree)增量维护数据流滑动时间窗口内的模式信息。同时,它还应用时间衰减模型衰减流数据所包含模式支持数的权重,并以此来区分新产生流数据与历史流数据所包含的模式。为了保证模式挖掘的覆盖率和精度,方法分析了时间衰减模型对模式支持数的影响,并给出了衰减因子在保证模式挖掘正确性条件下的边界值。并且,当滑动时间窗口的大小改变时,仅需重新设定合适的衰减因子的值即可重新保证在新的滑动时间窗口下模式挖掘的正确性。 在实际的数据流应用中,由于流数据的连续不断变化导致流数据所包含的模式信息也在不断地变化,因此很难事先估计数据流上的频繁模式信息并给出一个合适的最小支持度门限。数据流滑动时间窗口内Top-K频繁模式挖掘方法提供了一个更加直接的挖掘数据流上频繁模式的方法。它无需用户提供最小支持度门限,而仅需用户提供预期的频繁模式集的大小K。它使用Chernoff边界理论估计窗口内第K频繁模式的支持度,并将其用于动态维护窗口内潜在频繁的模式信息。根据理论分析,Chernoff边界理论能够为模式挖掘的正确性提供了概率保证。 研究数据流上的历史数据的变化趋势,并预测数据流在未来时间窗口内的可能值是数据流挖掘的一项重要工作。基于马尔可夫模型的数据流预测查询算法以实数数据流为例,通过将实数数据流上大小可能无限的流数据空间映射到一个有限的流数据状态空间中,从而将数据流上的流数据变化序列转变成为一个流数据状态变迁序列。通过使用数据流状态变迁有向图(SSTD)维护流数据状态变迁序列的统计信息,可以得到流数据状态变迁的概率矩阵,从而应用马尔可夫模型可以去预测数据流在未来时刻的可能值。
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP311.13

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前1条
1 史晨超;基于滑动窗口的网上银行数据流频繁模式研究[D];复旦大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 俞研;黄皓;;基于小样本标记实例的数据流集成入侵检测模型[J];电子学报;2007年02期
2 宋余庆,朱玉全,孙志挥,陈耿;基于FP-Tree的最大频繁项目集挖掘及更新算法[J];软件学报;2003年09期
3 刘君强,孙晓莹,庄越挺,潘云鹤;挖掘闭合模式的高性能算法[J];软件学报;2004年01期
4 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期
5 李建中,郭龙江,张冬冬,王伟平;数据流上的预测聚集查询处理算法[J];软件学报;2005年07期
6 张昕;李晓光;王大玲;于戈;;数据流中一种快速启发式频繁模式挖掘方法[J];软件学报;2005年12期
7 秦首科;钱卫宁;周傲英;;基于分形技术的数据流突变检测算法[J];软件学报;2006年09期
8 王伟平;李建中;张冬冬;郭龙江;;一种有效的挖掘数据流近似频繁项算法[J];软件学报;2007年04期
9 常建龙;曹锋;周傲英+;;基于滑动窗口的进化数据流聚类[J];软件学报;2007年04期
10 周晓云;孙志挥;张柏礼;杨宜东;;高维类别属性数据流离群点快速检测算法[J];软件学报;2007年04期
【共引文献】
中国期刊全文数据库 前10条
1 赵群礼;;基于FP-Tree的最大频繁项目集综合更新算法[J];安徽教育学院学报;2006年03期
2 赵群礼;卢朴;;基于T-tree的最大频繁项目集挖掘算法[J];合肥师范学院学报;2009年06期
3 张静,马云吉,张继生;超市消费行为分析中的增量挖掘系统原型[J];鞍山科技大学学报;2004年01期
4 胡奎;汤帜;高良才;;基于多级特征提取的中文文本图像压缩算法[J];北京大学学报(自然科学版);2010年06期
5 高明霞;姚文集;毛国君;;XML数据流中面向聚类的指数直方图[J];北京工业大学学报;2011年08期
6 李岩;王惠文;叶明;刘丹;;基于Squeezer算法的大规模矩阵聚类分析[J];北京航空航天大学学报;2009年12期
7 冯文峰;郭巧;吴素妍;;基于多层概要结构的数据流的频繁项集发现算法[J];北京理工大学学报;2006年06期
8 冯博;徐雅静;赵娜;徐惠民;;数据流中的频繁标记闭子树的批量挖掘[J];北京邮电大学学报;2010年05期
9 王金栋;张磊;丁秋林;黄添强;;基于立体重叠网络的网管模型[J];吉林大学学报(信息科学版);2006年01期
10 周玉敏;邓维斌;;基于FP树的最大频繁项目集增量式更新算法[J];重庆工学院学报(自然科学版);2007年05期
中国重要会议论文全文数据库 前10条
1 习慧丹;;Web日志挖掘探析[A];第三届全国软件测试会议与移动计算、栅格、智能化高级论坛论文集[C];2009年
2 刘治安;王桂兰;;基于数据流的网络预测与异常分析[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
3 陈志坤;杨树强;李爱平;郑黎明;;数据流与数据库之间混合连接查询算法的研究[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
4 江杨;;流数据存储系统体系结构研究[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
5 韩矞;贾焰;甘亮;;一种基于网络安全数据流的混合CUBE模型[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
6 王亦兵;杨树强;王晓伟;;一个面向数据流的多维分析系统的研究与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
7 刘东;韩伟红;郑黎明;;基于数据流管理系统的网络安全事件多维分析[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 楚红涛;寒枫;张燕;王婷;;基于数据流的挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
9 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
10 杜阿宁;方滨兴;;面向网络报文流分析的频繁项监测技术研究[A];全国网络与信息安全技术研讨会'2005论文集(上册)[C];2005年
中国硕士学位论文全文数据库 前10条
1 梅俊;数据挖掘中关联规则算法的研究及应用[D];安徽工程大学;2010年
2 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
3 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
4 王勇;一种面向隐私保护的分布式数据流挖掘算法[D];哈尔滨工程大学;2010年
5 于洋;一种改进的COBWEB算法研究[D];哈尔滨工程大学;2010年
6 徐艳红;基于倾斜时间窗口的频繁项集挖掘算法研究[D];哈尔滨工程大学;2010年
7 骆永健;基于聚类的数据流异常检测算法的研究[D];哈尔滨工程大学;2010年
8 王秀锋;网络环境下异构日志信息获取和预处理研究[D];哈尔滨工程大学;2010年
9 赵晓燕;基于多索引的高维时间序列子序列检索研究[D];大连理工大学;2010年
10 韩君;近期数据流频繁项集挖掘[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 吕宝林;张同健;;基于实践数据的国有商业银行信息化战略结构模型经验分析[J];中国管理信息化;2008年09期
2 蒙韧;苏毅娟;朱晓峰;张继连;;数据挖掘中的增量式关联规则更新算法[J];广西科学院学报;2006年02期
3 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期
4 颜跃进,李舟军,陈火旺;基于FP-Tree有效挖掘最大频繁项集[J];软件学报;2005年02期
5 李建中,郭龙江,张冬冬,王伟平;数据流上的预测聚集查询处理算法[J];软件学报;2005年07期
6 王伟平;李建中;张冬冬;郭龙江;;基于滑动窗口的数据流连续J-A查询的处理方法[J];软件学报;2006年04期
7 陈安龙;唐常杰;元昌安;彭京;胡建军;;挖掘多数据流的异步偶合模式的抗噪声算法[J];软件学报;2006年08期
8 王伟平;李建中;张冬冬;郭龙江;;一种有效的挖掘数据流近似频繁项算法[J];软件学报;2007年04期
9 陈安龙;唐常杰;傅彦;廖勇;;基于能量和频繁模式的数据流预测查询算法[J];软件学报;2008年06期
10 李国徽;陈辉;;挖掘数据流任意滑动时间窗口内频繁模式[J];软件学报;2008年10期
【二级参考文献】
中国期刊全文数据库 前7条
1 路松峰,卢正鼎;快速开采最大频繁项目集[J];软件学报;2001年02期
2 魏藜,宫学庆,钱卫宁,周傲英;高维空间中的离群点发现[J];软件学报;2002年02期
3 刘君强,孙晓莹,庄越挺,潘云鹤;挖掘闭合模式的高性能算法[J];软件学报;2004年01期
4 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期
5 李建中,郭龙江,张冬冬,王伟平;数据流上的预测聚集查询处理算法[J];软件学报;2005年07期
6 朱蔚恒;印鉴;谢益煌;;基于数据流的任意形状聚类算法[J];软件学报;2006年03期
7 冯玉才,冯剑琳;关联规则的增量式更新算法[J];软件学报;1998年04期
【相似文献】
中国期刊全文数据库 前10条
1 刘学军;徐宏炳;董逸生;王永利;钱江波;;挖掘数据流中的频繁模式[J];计算机研究与发展;2005年12期
2 李国徽;陈辉;;挖掘数据流任意滑动时间窗口内频繁模式[J];软件学报;2008年10期
3 王聪生;开发CAD软件的辅助工具——CAP[J];微计算机应用;1988年04期
4 杨旭波,蔡文立,石教英;通用的交互式可视化环境[J];软件学报;1996年09期
5 林永宁;计算机在电视片生产管理中的应用[J];影视技术;1996年03期
6 詹承华;杨志义;杨柳;;异质多处理器芯片中的数据流核心设计[J];电子技术应用;2006年03期
7 王金栋;周良;张磊;丁秋林;;面向分布式数据流系统的可扩展负载平衡算法[J];应用科学学报;2006年03期
8 刁树民;王永利;张晓勇;;一种数据流中奇异数据的自适应恢复方法[J];计算机工程;2007年15期
9 刘学军;胡平;徐宏炳;董逸生;;基于滑动窗口的在线数据流增量聚集查询[J];计算机工程;2007年21期
10 王磊;黄志球;朱小栋;沈国华;程亮;;数据流中基于事务链表组的频繁闭项集挖掘[J];计算机工程与设计;2008年08期
中国重要会议论文全文数据库 前10条
1 蔡致远;魏藜;钱卫宁;周傲英;;DEODS:快速准确的数据流密度估计[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 丁健;李建中;李金宝;高宏;;数据流上的并行决策树构成算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 李康宁;樊小泊;陈红;;一种数据流滑动窗口范围连接上基于局部特征的查询索引[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
4 谭建龙;郭丽;刘萍;沈星星;;建立数据流管理系统GodRiver[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
5 后小亮;刘奇志;高先锋;檀宝权;;大量多态数据流的综合压缩算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 李爱平;杨庆民;甘亮;;基于Dwarf的数据流立方体的研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
7 林子雨;林琛;冯少荣;张东站;;MESHJOIN~*:实时数据仓库环境下的数据流更新算法[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
8 李国徽;黄蕾;;数据流环境下的基于加权网格的聚类算法研究[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
9 赵哲;孙婷;陈立军;崔斌;;一种数据流上的快速分段算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
10 王潇;卢阳;陈立军;;网内查询处理中的一种基于数据流共享的过滤查询算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国重要报纸全文数据库 前10条
1 本报记者 朱杰;优化数据流构建移动未来网络[N];中国计算机报;2010年
2 谭啸;打通企业数据流[N];计算机世界;2005年
3 深圳市物业发展(集团)股份有限公司 程贵平;以理顺数据流为出发点[N];网络世界;2002年
4 本报记者 卢子月;WIPS捕捉空中数据流[N];通信产业报;2010年
5 李;金山毒霸力推数据流杀毒技术[N];计算机世界;2007年
6 杨春光 张钝;数据流托起信息化训练方舟[N];解放军报;2003年
7 IBM大中华区董事长及首席执行总裁 钱大群;用领导者价值观改善思维[N];中国经营报;2011年
8 特约撰稿人 奇琳;B3G的多天线技术[N];通信产业报;2006年
9 记者 杨晓丹通讯员 朱莹;天津石化建起全过程闭环数据流[N];中国石化报;2008年
10 杨正明;网络化管理数据流畅通是关键[N];中国计算机报;2001年
中国博士学位论文全文数据库 前10条
1 陈辉;数据流频繁模式挖掘及数据预测算法研究[D];华中科技大学;2008年
2 杨蓓;数据流top-K频繁模式挖掘算法研究[D];北京交通大学;2009年
3 陈刚;数据流的无阻塞连接算法研究[D];华中科技大学;2010年
4 蒋纲;数据包在无线网络中调度策略的研究[D];华中科技大学;2004年
5 曹锋;数据流聚类分析算法[D];复旦大学;2006年
6 孙玉芬;基于网格方法的聚类算法研究[D];华中科技大学;2006年
7 刘青宝;模糊、动态多维数据建模理论与方法研究[D];国防科学技术大学;2006年
8 王鹏;数据流上的分类算法的研究[D];复旦大学;2007年
9 黄芹华;隐私保持数据挖掘与知识发现研究[D];上海大学;2007年
10 邓娜;基于最优Hankel范数近似的线性相位IIR滤波器设计及其应用研究[D];东华大学;2008年
中国硕士学位论文全文数据库 前10条
1 杜安明;模具企业管理模式及管理信息系统设计[D];重庆大学;2004年
2 张庆;一种基于UML状态图的类级测试技术的研究与实现[D];电子科技大学;2005年
3 赵国斌;铁路试点数据中心设计及实现[D];北京交通大学;2007年
4 宫剑飞;客户区域化归属问题的研究[D];哈尔滨工程大学;2009年
5 贺春亮;基于数据流滑动窗口的降载技术研究[D];燕山大学;2009年
6 张华剑;虚拟筛选海量并行任务管理系统中数据流的管理[D];兰州大学;2010年
7 牟柳晨;基于ASP技术的远程机械设计系统的实施方法研究[D];四川大学;2004年
8 郭秀荣;RBF神经网络在电喷发动机故障诊断中的应用研究[D];东北林业大学;2005年
9 张继超;数据流的变化检测算法及其在实时汇率数据流异常检测中的应用[D];郑州大学;2005年
10 刘波;基于安全分区和IEC61970的调度数据共享平台中若干问题研究[D];浙江大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026