收藏本站
《北京交通大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

数据流top-K频繁模式挖掘算法研究

杨蓓  
【摘要】: 数据流是近年来产生的一种新型数据模型,广泛出现在多种应用领域,如Web点击流分析、交通流量监控与管理、电力供应管理与预测、传感器网络数据分析、电信数据管理、金融服务、商业交易管理和分析等。数据流模型不同于传统的数据库模型,具有快速、实时、连续、无界等特点,由此决定了数据流的查询或挖掘算法与基于传统的数据库的挖掘技术有显著的区别,其算法应是单遍扫描(one-pass)的。由于存贮容量的有限性,不可能完整地保存全部数据流元素。一种有效的方法是设计一个远小于原数据流规模的结构,保存已流过数据的概要特征,用于数据流的查询处理及分析,因而挖掘结果通常是近似的。鉴于数据流的高速性和连续性,数据流算法应是动态增量的,亦必须是高时空效率的。现有的数据库挖掘技术已不再适合数据流环境。因此,流数据环境下的数据挖掘研究具有更大的机遇和挑战性。 论文针对数据流挖掘分析处理中的几个基本问题进行了探讨和研究,主要内容如下: 1.动态增量地挖掘数据流界标窗口的top-K频繁模式。挖掘top-K频繁模式在现实生活中有重要应用,为此我们研究有效算法TOPSIL-Miner动态增量地挖掘数据流界标窗口的top-K频繁模式。设计了存储流数据摘要信息的概要结构TOPSIL-Tree以及动态记录挖掘相关信息的树层最大支持度表MaxSL、项目序表OIL、候选结果集TOPSET和最小支持度表MinSL等概要结构,并分析了与这些数据结构相关的挖掘特性,在此基础上研究挖掘算法的若干优化措施。并对算法的误差上界进行了理论分析研究。算法具有较高的时空效率和精确度。 2.高效挖掘数据流滑动窗口top-K频繁N模式集。滑动窗口模型因其更关注最近到达的流数据,所以有很高的实用价值。在基于滑动窗口的数掘流挖掘分析中,不但要及时地增量地处理源源不断到来的流数据,而且还要考虑过期数据的处理,因而比基于界标窗口的挖掘技术具有更大的挑战性。提出了有效挖掘数据流滑动窗口top-K频繁N模式集的近似算法TOPSIS。采用批处理的方法,将滑动窗口划分为若干基本窗口作为处理单元。设计概要结构TOPSIS-Tree和RELIS分别存储和记录流数据的摘要信息和当前滑动窗口的挖掘结果,并设计了三种优化策略用以提高算法的时空效率:(1)滑动窗口更新时剪枝最新基本窗口的无功节点;(2)挖掘过程中动态提升支持度阈值;(3)启发式自适应调整剪枝阈值。同时,对算法在挖掘频繁模式产生的支持度误差进行了理论分析。算法具有较好的适应性和可伸缩性,用户可以根据需要,通过调整功用参数在执行效率和结果精度方面取得均衡。 3.有效挖掘数据流滑动窗口top-K闭合频繁模式。闭合频繁模式是频繁模式的精确简洁表示,能够唯一地确定所有的频繁模式及其支持度,并且在数目上往往比频繁模式小几个数量级。研究了一种有效挖掘数据流滑动窗口top-K闭合频繁模式的近似算法TCIS。设计了一种新的压缩前缀扩展树结构TCIS-Tree,该结构不仅存储当前滑动窗口的概要数据信息,而且还记录了业已发现的候选闭合模式信息。在TCIS-Tree的更新和挖掘过程中,采用数据过滤、启发式动态调整剪枝阈值、挖掘阈值等若干优化措施,有效地提高算法的时空效率。结合TCIS-Tree采用一种二级哈希结构快速地进行模式的闭合性判别。有效地实现了滑动窗口top-K闭合模式的挖掘。 4.数据流分位数查询。分位数是数据集合的一个重要统计量。设计了一个基于规范数直方图的概要结构——Nord Histogram,并在此基础上实现了数据流分位数查询的单遍扫描近似算法NORMAL,其时间和空间复杂度均线性于概要结构中桶的个数,与数据流的长度无关,因而具有很好的可伸缩性。该方法在均匀分布的数据上取得了优良性能。对算法精度与内存需求的关系进行了理论分析。 针对上述研究,本文进行了一系列实验研究,对算法的时间消耗、空间需求以及精确性进行了测试,并和已有的有关算法进行了比较。实验表明,上述算法具有较高的时空效率和精确性能,有效地实现了相关的数据流挖掘任务。
【学位授予单位】:北京交通大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP311.13

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前2条
1 刘立新;数据流频繁模式挖掘算法研究[D];中南大学;2010年
2 豆飞飞;基于Sketch的数据流频繁项集挖掘研究[D];西安电子科技大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 刘旭;毛国君;孙岳;刘椿年;;数据流中频繁闭项集的近似挖掘算法[J];电子学报;2007年05期
2 倪志伟,黄玲,李锋刚,忻凌;数据流管理与挖掘研究[J];合肥工业大学学报(自然科学版);2005年09期
3 王鹏,吴晓晨,王晨,汪卫,施伯乐;CAPE——数据流上的基于频繁模式的分类算法[J];计算机研究与发展;2004年10期
4 刘学军;徐宏炳;董逸生;王永利;钱江波;;挖掘数据流中的频繁模式[J];计算机研究与发展;2005年12期
5 周晓云;孙志挥;张柏礼;杨宜东;;高维数据流子空间聚类发现及维护算法[J];计算机研究与发展;2006年05期
6 刘学军;徐宏炳;董逸生;钱江波;王永利;;基于滑动窗口的数据流闭合频繁模式的挖掘[J];计算机研究与发展;2006年10期
7 周晓云;孙志挥;张柏礼;杨宜东;;高维数据流聚类及其演化分析研究[J];计算机研究与发展;2006年11期
8 刘青宝;戴超凡;邓苏;张维明;;基于网格的数据流聚类算法[J];计算机科学;2007年03期
9 高永梅;黄亚楼;;一种基于网格和密度的数据流聚类算法[J];计算机科学;2008年02期
10 尹志武;黄上腾;;一种自适应局部概念漂移的数据流分类算法[J];计算机科学;2008年02期
中国硕士学位论文全文数据库 前1条
1 曹国栋;数据流频繁模式挖掘算法研究与设计[D];燕山大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 程韦;苏志同;;数据挖掘技术在现代信息管理系统中的研究与分析[J];北京工业职业技术学院学报;2008年04期
2 毛国君;孙晓希;宗东军;;多维数据流最大频集挖掘模型和算法[J];北京工业大学学报;2010年06期
3 高明霞;姚文集;毛国君;;XML数据流中面向聚类的指数直方图[J];北京工业大学学报;2011年08期
4 由育阳;张健沛;杨志宏;由勇;;基于前缀树的数据流容错概要结构构造[J];北京航空航天大学学报;2011年05期
5 冯文峰;郭巧;吴素妍;;基于多层概要结构的数据流的频繁项集发现算法[J];北京理工大学学报;2006年06期
6 朱思峰;刘芳;柴争义;;免疫聚类算法在基因表达数据分析中的应用[J];北京邮电大学学报;2010年02期
7 冯博;徐雅静;赵娜;徐惠民;;数据流中的频繁标记闭子树的批量挖掘[J];北京邮电大学学报;2010年05期
8 孟海洋;薛红;郭培源;曹利红;;网上超市购物系统的设计与实现[J];北京工商大学学报(自然科学版);2008年06期
9 杨晓;张迎新;;Apriori算法在消费市场价格分析中的研究与应用[J];北京工商大学学报(自然科学版);2009年03期
10 李梦奇;谢志江;;基于市场供应的包装机械模块化设计[J];包装工程;2008年09期
中国重要会议论文全文数据库 前10条
1 罗艳;;论数据挖掘的发展前景及潜在价值[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
2 杨子良;陶宏才;;一种基于向量运算的频繁项集快速挖掘算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 陈志坤;杨树强;李爱平;郑黎明;;数据流与数据库之间混合连接查询算法的研究[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
4 朱春江;陆宇旻;李陶深;杜衡斌;唐晟;;分布式网络监控系统中网页安全挖掘的研究[A];广西计算机学会2008年年会论文集[C];2008年
5 李久丹;陈剑;覃涛;;数据挖掘技术理论研究[A];广西计算机学会2010年学术年会论文集[C];2010年
6 江杨;;流数据存储系统体系结构研究[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
7 汪沛;;Isolex股市预测系统的设计与实现[A];促进企业信息化进程——第十届中国Java技术及应用大会文集[C];2007年
8 韩矞;贾焰;甘亮;;一种基于网络安全数据流的混合CUBE模型[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
9 王亦兵;杨树强;王晓伟;;一个面向数据流的多维分析系统的研究与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
10 刘东;韩伟红;郑黎明;;基于数据流管理系统的网络安全事件多维分析[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
中国博士学位论文全文数据库 前10条
1 刘雪梅;服务器端软件性能分析和诊断方法研究[D];哈尔滨工程大学;2010年
2 冯光升;面向认知网络的自适应QoS感知与配置方法[D];哈尔滨工程大学;2009年
3 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
4 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
5 李敏;基于协同异构模型的成形模拟计算加速[D];华中科技大学;2010年
6 吴海;移动实时数据库中的数据广播策略研究[D];华中科技大学;2010年
7 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
8 刘汉霞;我国权力寻租的影响因素研究[D];华南理工大学;2010年
9 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
10 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
中国硕士学位论文全文数据库 前10条
1 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
2 杨海陆;公路收费系统数据分析与挖掘[D];哈尔滨工程大学;2010年
3 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
4 何晓冰;大规模网络流量异常预警技术研究[D];哈尔滨工程大学;2010年
5 王勇;一种面向隐私保护的分布式数据流挖掘算法[D];哈尔滨工程大学;2010年
6 于洋;一种改进的COBWEB算法研究[D];哈尔滨工程大学;2010年
7 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
8 徐艳红;基于倾斜时间窗口的频繁项集挖掘算法研究[D];哈尔滨工程大学;2010年
9 骆永健;基于聚类的数据流异常检测算法的研究[D];哈尔滨工程大学;2010年
10 杜以韧;基于网格和密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 敖富江;杜静;陈彬;黄柯棣;;一种基于混合搜索的高效Top-K最频繁模式挖掘算法[J];国防科技大学学报;2009年02期
2 颜跃进,李舟军,陈火旺;一种挖掘最大频繁项集的深度优先算法[J];计算机研究与发展;2005年03期
3 刘学军;徐宏炳;董逸生;王永利;钱江波;;挖掘数据流中的频繁模式[J];计算机研究与发展;2005年12期
4 刘学军;徐宏炳;董逸生;钱江波;王永利;;基于滑动窗口的数据流闭合频繁模式的挖掘[J];计算机研究与发展;2006年10期
5 宋威;杨炳儒;徐章艳;高静;;一种改进的频繁闭项集挖掘算法[J];计算机研究与发展;2008年02期
6 杨蓓;黄厚宽;;挖掘数据流界标窗口Top-K频繁项集[J];计算机研究与发展;2010年03期
7 周傲英;金澈清;王国仁;李建中;;不确定性数据管理技术研究综述[J];计算机学报;2009年01期
8 周傲英,崇志宏;数据流中基于计数的频繁模式挖掘[J];计算机应用;2004年10期
9 潘云鹤;王金龙;徐从富;;数据流频繁模式挖掘研究进展[J];自动化学报;2006年04期
10 张昕;李晓光;王大玲;于戈;;数据流中一种快速启发式频繁模式挖掘方法[J];软件学报;2005年12期
中国博士学位论文全文数据库 前2条
1 王述云;数据流频繁项挖掘与聚类分析的研究[D];复旦大学;2008年
2 陈华辉;基于遗忘特性的数据流概要结构及其应用研究[D];复旦大学;2008年
中国硕士学位论文全文数据库 前1条
1 韩瑞雪;数据流中top k项频繁闭合模式挖掘研究[D];武汉理工大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 高军,杨冬青,王腾蛟,唐世渭;一种XML数据流之上持续查询执行器的增量维护方法[J];计算机研究与发展;2005年05期
2 刘学军;徐宏炳;董逸生;王永利;钱江波;;挖掘数据流中的频繁模式[J];计算机研究与发展;2005年12期
3 孙玉芬;卢炎生;;流数据挖掘综述[J];计算机科学;2007年01期
4 周傲英,崇志宏;数据流中基于计数的频繁模式挖掘[J];计算机应用;2004年10期
5 宋余庆,朱玉全,孙志挥,陈耿;基于FP-Tree的最大频繁项目集挖掘及更新算法[J];软件学报;2003年09期
6 刘君强,孙晓莹,庄越挺,潘云鹤;挖掘闭合模式的高性能算法[J];软件学报;2004年01期
7 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期
8 吴恩华;图形处理器用于通用计算的技术、现状及其挑战[J];软件学报;2004年10期
9 李建中,张冬冬;滑动窗口规模的动态调整算法[J];软件学报;2004年12期
10 颜跃进,李舟军,陈火旺;基于FP-Tree有效挖掘最大频繁项集[J];软件学报;2005年02期
【相似文献】
中国期刊全文数据库 前10条
1 陈荣晖;王伦文;;一种新的滑动窗口模型数据流聚类方法[J];小型微型计算机系统;2010年12期
2 鲁宏伟;龚雄斌;孔华锋;;基于接收端应用的TCP流量控制策略的研究[J];小型微型计算机系统;2006年12期
3 邝祝芳;阳国贵;辛动军;;SWFPM:一种有效的数据流频繁项挖掘算法[J];计算机应用研究;2009年02期
4 张忠平;梁永欣;;基于反k近邻的流数据离群点挖掘算法[J];计算机工程;2009年12期
5 刘学军;徐宏炳;董逸生;钱江波;王永利;;基于滑动窗口的数据流闭合频繁模式的挖掘[J];计算机研究与发展;2006年10期
6 李晓莉;李晓光;王大玲;;一种在线互相似流群发现方法[J];小型微型计算机系统;2007年07期
7 刘学军;胡平;徐宏炳;董逸生;;基于滑动窗口的在线数据流增量聚集查询[J];计算机工程;2007年21期
8 杨路明;刘立新;毛伊敏;谢东;;数据流中基于滑动窗口的最大频繁项集挖掘算法[J];计算机应用研究;2010年02期
9 张月琴;陈东;;数据流最大频繁项挖掘方法[J];计算机工程;2010年22期
10 李娜;邢长征;;时间滑动窗口内基于密度的数据流聚类算法[J];计算机应用;2011年05期
中国重要会议论文全文数据库 前10条
1 杨宜东;孙志挥;张柏礼;;数据流多维直方图的动态维护[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 李康宁;樊小泊;陈红;;一种数据流滑动窗口范围连接上基于局部特征的查询索引[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 曾勋;卢艳民;陈红;;基于滑动窗口的数据流压缩技术及聚类处理方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 李康宁;卢艳民;陈红;;基于马尔可夫预测模型的数据流滑动窗口近似连接缓存管理策略[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 孙婷;赵哲;陈立军;张旭亮;;数据流滑动窗口上线性回归参数的递推式算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
6 郭兵洁;张天成;李景银;于戈;;基于时标的滑动窗口模型在数据流查询中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 王栩;李建中;王伟平;;基于滑动窗口的数据流压缩技术及连续查询处理方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
8 沙瀛;谭建龙;;一种采用拟合曲线计算滑动窗口下数据流的最大值/最小值的方法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
9 王伟平;李建中;张冬冬;郭龙江;;数据流上基于时间滑动窗口的连接算法研究[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
10 王伟平;李建中;张冬冬;郭龙江;王栩;;一种数据流连续查询的并行处理技术[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国重要报纸全文数据库 前10条
1 杨毅;控制曝光的法门[N];中国摄影报;2009年
2 本报记者 朱杰;优化数据流构建移动未来网络[N];中国计算机报;2010年
3 谭啸;打通企业数据流[N];计算机世界;2005年
4 深圳市物业发展(集团)股份有限公司 程贵平;以理顺数据流为出发点[N];网络世界;2002年
5 本报记者 卢子月;WIPS捕捉空中数据流[N];通信产业报;2010年
6 李;金山毒霸力推数据流杀毒技术[N];计算机世界;2007年
7 杨春光 张钝;数据流托起信息化训练方舟[N];解放军报;2003年
8 IBM大中华区董事长及首席执行总裁 钱大群;用领导者价值观改善思维[N];中国经营报;2011年
9 记者 杨晓丹通讯员 朱莹;天津石化建起全过程闭环数据流[N];中国石化报;2008年
10 杨正明;网络化管理数据流畅通是关键[N];中国计算机报;2001年
中国博士学位论文全文数据库 前10条
1 杨蓓;数据流top-K频繁模式挖掘算法研究[D];北京交通大学;2009年
2 陈辉;数据流频繁模式挖掘及数据预测算法研究[D];华中科技大学;2008年
3 陈刚;数据流的无阻塞连接算法研究[D];华中科技大学;2010年
4 秦首科;数据流上的异常检测[D];复旦大学;2006年
5 赵峰;序列分析算法及其在入侵容忍中的应用研究[D];华中科技大学;2006年
6 陈俊波;频繁闭合项集挖掘算法及应用研究[D];浙江大学;2009年
7 郭建奎;数据流相似性查询及模式挖掘研究[D];复旦大学;2008年
8 韩志杰;基于P2P的流媒体若干关键技术研究[D];苏州大学;2009年
9 蒋纲;数据包在无线网络中调度策略的研究[D];华中科技大学;2004年
10 徐超;面向大型工程健康监测的无线传感器网络基本理论和关键技术研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 贺春亮;基于数据流滑动窗口的降载技术研究[D];燕山大学;2009年
2 闫朝升;数据流联机分析处理技术的研究[D];黑龙江大学;2004年
3 郑琼冬;数据流查询处理算法的研究[D];暨南大学;2008年
4 张亮;基于MFI-TransSW算法的股票依赖性研究[D];西安建筑科技大学;2009年
5 郑耀东;基于数据流的聚合函数精确计算研究及其应用[D];首都师范大学;2006年
6 宫剑飞;客户区域化归属问题的研究[D];哈尔滨工程大学;2009年
7 钟颖莉;数据流查询操作算法的研究[D];黑龙江大学;2004年
8 赵学良;基于滑动窗口模型的数据流离群点检测研究[D];重庆大学;2012年
9 蔡春丽;数据流挖掘中聚类算法的研究与实现[D];哈尔滨工程大学;2007年
10 施鸿喜;基于密度单元覆盖的聚类数据流算法研究[D];郑州大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026