收藏本站
收藏 | 论文排版

数据流top-K频繁模式挖掘算法研究

杨蓓  
【摘要】: 数据流是近年来产生的一种新型数据模型,广泛出现在多种应用领域,如Web点击流分析、交通流量监控与管理、电力供应管理与预测、传感器网络数据分析、电信数据管理、金融服务、商业交易管理和分析等。数据流模型不同于传统的数据库模型,具有快速、实时、连续、无界等特点,由此决定了数据流的查询或挖掘算法与基于传统的数据库的挖掘技术有显著的区别,其算法应是单遍扫描(one-pass)的。由于存贮容量的有限性,不可能完整地保存全部数据流元素。一种有效的方法是设计一个远小于原数据流规模的结构,保存已流过数据的概要特征,用于数据流的查询处理及分析,因而挖掘结果通常是近似的。鉴于数据流的高速性和连续性,数据流算法应是动态增量的,亦必须是高时空效率的。现有的数据库挖掘技术已不再适合数据流环境。因此,流数据环境下的数据挖掘研究具有更大的机遇和挑战性。 论文针对数据流挖掘分析处理中的几个基本问题进行了探讨和研究,主要内容如下: 1.动态增量地挖掘数据流界标窗口的top-K频繁模式。挖掘top-K频繁模式在现实生活中有重要应用,为此我们研究有效算法TOPSIL-Miner动态增量地挖掘数据流界标窗口的top-K频繁模式。设计了存储流数据摘要信息的概要结构TOPSIL-Tree以及动态记录挖掘相关信息的树层最大支持度表MaxSL、项目序表OIL、候选结果集TOPSET和最小支持度表MinSL等概要结构,并分析了与这些数据结构相关的挖掘特性,在此基础上研究挖掘算法的若干优化措施。并对算法的误差上界进行了理论分析研究。算法具有较高的时空效率和精确度。 2.高效挖掘数据流滑动窗口top-K频繁N模式集。滑动窗口模型因其更关注最近到达的流数据,所以有很高的实用价值。在基于滑动窗口的数掘流挖掘分析中,不但要及时地增量地处理源源不断到来的流数据,而且还要考虑过期数据的处理,因而比基于界标窗口的挖掘技术具有更大的挑战性。提出了有效挖掘数据流滑动窗口top-K频繁N模式集的近似算法TOPSIS。采用批处理的方法,将滑动窗口划分为若干基本窗口作为处理单元。设计概要结构TOPSIS-Tree和RELIS分别存储和记录流数据的摘要信息和当前滑动窗口的挖掘结果,并设计了三种优化策略用以提高算法的时空效率:(1)滑动窗口更新时剪枝最新基本窗口的无功节点;(2)挖掘过程中动态提升支持度阈值;(3)启发式自适应调整剪枝阈值。同时,对算法在挖掘频繁模式产生的支持度误差进行了理论分析。算法具有较好的适应性和可伸缩性,用户可以根据需要,通过调整功用参数在执行效率和结果精度方面取得均衡。 3.有效挖掘数据流滑动窗口top-K闭合频繁模式。闭合频繁模式是频繁模式的精确简洁表示,能够唯一地确定所有的频繁模式及其支持度,并且在数目上往往比频繁模式小几个数量级。研究了一种有效挖掘数据流滑动窗口top-K闭合频繁模式的近似算法TCIS。设计了一种新的压缩前缀扩展树结构TCIS-Tree,该结构不仅存储当前滑动窗口的概要数据信息,而且还记录了业已发现的候选闭合模式信息。在TCIS-Tree的更新和挖掘过程中,采用数据过滤、启发式动态调整剪枝阈值、挖掘阈值等若干优化措施,有效地提高算法的时空效率。结合TCIS-Tree采用一种二级哈希结构快速地进行模式的闭合性判别。有效地实现了滑动窗口top-K闭合模式的挖掘。 4.数据流分位数查询。分位数是数据集合的一个重要统计量。设计了一个基于规范数直方图的概要结构——Nord Histogram,并在此基础上实现了数据流分位数查询的单遍扫描近似算法NORMAL,其时间和空间复杂度均线性于概要结构中桶的个数,与数据流的长度无关,因而具有很好的可伸缩性。该方法在均匀分布的数据上取得了优良性能。对算法精度与内存需求的关系进行了理论分析。 针对上述研究,本文进行了一系列实验研究,对算法的时间消耗、空间需求以及精确性进行了测试,并和已有的有关算法进行了比较。实验表明,上述算法具有较高的时空效率和精确性能,有效地实现了相关的数据流挖掘任务。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈荣晖;王伦文;;一种新的滑动窗口模型数据流聚类方法[J];小型微型计算机系统;2010年12期
2 鲁宏伟;龚雄斌;孔华锋;;基于接收端应用的TCP流量控制策略的研究[J];小型微型计算机系统;2006年12期
3 邝祝芳;阳国贵;辛动军;;SWFPM:一种有效的数据流频繁项挖掘算法[J];计算机应用研究;2009年02期
4 张忠平;梁永欣;;基于反k近邻的流数据离群点挖掘算法[J];计算机工程;2009年12期
5 刘学军;徐宏炳;董逸生;钱江波;王永利;;基于滑动窗口的数据流闭合频繁模式的挖掘[J];计算机研究与发展;2006年10期
6 李晓莉;李晓光;王大玲;;一种在线互相似流群发现方法[J];小型微型计算机系统;2007年07期
7 刘学军;胡平;徐宏炳;董逸生;;基于滑动窗口的在线数据流增量聚集查询[J];计算机工程;2007年21期
8 杨路明;刘立新;毛伊敏;谢东;;数据流中基于滑动窗口的最大频繁项集挖掘算法[J];计算机应用研究;2010年02期
9 张月琴;陈东;;数据流最大频繁项挖掘方法[J];计算机工程;2010年22期
10 李娜;邢长征;;时间滑动窗口内基于密度的数据流聚类算法[J];计算机应用;2011年05期
11 程转流;胡为成;;数据流频繁模式挖掘技术研究[J];铜陵学院学报;2007年05期
12 杨蓓;黄厚宽;;数据流上的分位数近似算法研究[J];计算机研究与发展;2008年02期
13 谷峪;李晓静;许嘉;于戈;;支持复杂语义的数据流滑动窗口连接建模和查询优化[J];东北大学学报(自然科学版);2008年11期
14 敖富江;颜跃进;刘宝宏;黄柯棣;;在线挖掘数据流滑动窗口中最大频繁项集[J];系统仿真学报;2009年04期
15 钟玉峰;雷国华;;一种基于滑动窗口技术的入侵检测方法[J];信息技术;2009年07期
16 张月琴;;滑动窗口中数据流频繁项集挖掘方法[J];计算机工程与应用;2010年16期
17 杨显飞;张健沛;杨静;初妍;;基于距离的数据流离群点挖掘算法[J];计算机应用;2010年11期
18 任美睿;郭龙江;;基于ASWT的流数据弹性跳变检测算法[J];郑州大学学报(理学版);2006年04期
19 刘洁;杨路明;毛伊敏;刘立新;谢东;;改进的数据流频繁闭项集挖掘算法[J];计算机工程;2011年09期
20 苏勇;范玉玲;;可变滑动窗口在数据流频繁模式挖掘上的应用[J];计算机系统应用;2011年06期
中国重要会议论文全文数据库 前10条
1 杨宜东;孙志挥;张柏礼;;数据流多维直方图的动态维护[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 李康宁;樊小泊;陈红;;一种数据流滑动窗口范围连接上基于局部特征的查询索引[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 曾勋;卢艳民;陈红;;基于滑动窗口的数据流压缩技术及聚类处理方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 李康宁;卢艳民;陈红;;基于马尔可夫预测模型的数据流滑动窗口近似连接缓存管理策略[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 孙婷;赵哲;陈立军;张旭亮;;数据流滑动窗口上线性回归参数的递推式算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
6 郭兵洁;张天成;李景银;于戈;;基于时标的滑动窗口模型在数据流查询中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 王栩;李建中;王伟平;;基于滑动窗口的数据流压缩技术及连续查询处理方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
8 沙瀛;谭建龙;;一种采用拟合曲线计算滑动窗口下数据流的最大值/最小值的方法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
9 王伟平;李建中;张冬冬;郭龙江;;数据流上基于时间滑动窗口的连接算法研究[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
10 王伟平;李建中;张冬冬;郭龙江;王栩;;一种数据流连续查询的并行处理技术[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 杨蓓;数据流top-K频繁模式挖掘算法研究[D];北京交通大学;2009年
2 陈辉;数据流频繁模式挖掘及数据预测算法研究[D];华中科技大学;2008年
3 陈刚;数据流的无阻塞连接算法研究[D];华中科技大学;2010年
4 秦首科;数据流上的异常检测[D];复旦大学;2006年
5 赵峰;序列分析算法及其在入侵容忍中的应用研究[D];华中科技大学;2006年
6 陈俊波;频繁闭合项集挖掘算法及应用研究[D];浙江大学;2009年
7 郭建奎;数据流相似性查询及模式挖掘研究[D];复旦大学;2008年
8 韩志杰;基于P2P的流媒体若干关键技术研究[D];苏州大学;2009年
9 蒋纲;数据包在无线网络中调度策略的研究[D];华中科技大学;2004年
10 徐超;面向大型工程健康监测的无线传感器网络基本理论和关键技术研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 贺春亮;基于数据流滑动窗口的降载技术研究[D];燕山大学;2009年
2 闫朝升;数据流联机分析处理技术的研究[D];黑龙江大学;2004年
3 郑琼冬;数据流查询处理算法的研究[D];暨南大学;2008年
4 张亮;基于MFI-TransSW算法的股票依赖性研究[D];西安建筑科技大学;2009年
5 郑耀东;基于数据流的聚合函数精确计算研究及其应用[D];首都师范大学;2006年
6 宫剑飞;客户区域化归属问题的研究[D];哈尔滨工程大学;2009年
7 钟颖莉;数据流查询操作算法的研究[D];黑龙江大学;2004年
8 赵学良;基于滑动窗口模型的数据流离群点检测研究[D];重庆大学;2012年
9 蔡春丽;数据流挖掘中聚类算法的研究与实现[D];哈尔滨工程大学;2007年
10 施鸿喜;基于密度单元覆盖的聚类数据流算法研究[D];郑州大学;2007年
中国重要报纸全文数据库 前10条
1 杨毅;控制曝光的法门[N];中国摄影报;2009年
2 本报记者 朱杰;优化数据流构建移动未来网络[N];中国计算机报;2010年
3 谭啸;打通企业数据流[N];计算机世界;2005年
4 深圳市物业发展(集团)股份有限公司 程贵平;以理顺数据流为出发点[N];网络世界;2002年
5 本报记者 卢子月;WIPS捕捉空中数据流[N];通信产业报;2010年
6 李;金山毒霸力推数据流杀毒技术[N];计算机世界;2007年
7 杨春光 张钝;数据流托起信息化训练方舟[N];解放军报;2003年
8 IBM大中华区董事长及首席执行总裁 钱大群;用领导者价值观改善思维[N];中国经营报;2011年
9 记者 杨晓丹通讯员 朱莹;天津石化建起全过程闭环数据流[N];中国石化报;2008年
10 杨正明;网络化管理数据流畅通是关键[N];中国计算机报;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978