收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于屏蔽/汇总技术的数据流处理算法

崇志宏  
【摘要】: 与传统数据密集型应用相比,诸如网络监控系统等顺序产生的实时数据无法精确存储在数据库中,这种数据序列被称为数据流。数据流的典型特点是,其存储消耗具有潜在的无界性,其产生次序、间隔等统计特性具有不确定性,因此,数据流处理的算法需要具备以下的特点:1)算法复杂度必须是次线性的,输出结果可以是近似的;2)算法能够实时处理数据流输入。线性复杂度算法不能处理数据流的存储、查询和分析处理,因此,通过屏蔽或汇总数据流来控制次线性复杂度存储消耗成为数据流研究的重要内容。本篇论文通过对数据流上频繁项(集)发现、分布数据流并上聚合函数估算和κ-中值点(κ-median)搜寻,研究数据流处理的屏蔽和汇总的基本策略,主要贡献有: 1.基于在线屏蔽策略,提出数据流上拒真的频繁项(集)发现,使用O(s~(-1)ln(2δ~(-1))存储以至少1-δ概率输出频繁项;使用O(K/sln(s~(-1)δ~(-1)))存储可靠挖掘边界频繁项集(频繁项集的浓缩表示); 2.基于采样屏蔽策略,提出滤除分布数据流中的冗余和不一致的算法,应用min-wise哈希采样数据流而获取均匀样本集。由于获取的样本集不受分布流中冗余和不一致数据影响,能够准确估计聚合函数值,并进一步应用min—wise哈希方法采样位置流(location streams)来搜寻κ-中值点; 3.基于汇总数据流策略,提出数据流上κ-中值点的快速估算算法,应用空间分割的汇总结构控制存储复杂度。不同于位置流中的频繁更新,数据流上κ-中值点需要单遍扫描庞大数目点集来获取近似中值点集。研究发现分割粒度不是影响κ-中值点近似程度的直接原因,避免精细分割产生指数增长的存储消耗问题。 本文的研究成果可广泛应用于数据流相关的应用,如金融交易数据的处理、传感器网络数据的分析、以及网络实时监控等领域。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 姚丽娟,李庆忠;传感器采样数据流查询技术[J];计算机工程与应用;2004年04期
2 吴应清;;浅论数据流挖掘[J];办公自动化;2011年08期
3 倪志伟,黄玲,李锋刚,忻凌;数据流管理与挖掘研究[J];合肥工业大学学报(自然科学版);2005年09期
4 孙晓华;;数据流挖掘技术研究[J];应用能源技术;2007年03期
5 高爱华;陈静;刘正林;;基于数据流的数据挖掘研究[J];商场现代化;2008年14期
6 秦元坤;彭乐;薛一波;;TSS数据流管理系统的设计与实现[J];计算机工程与设计;2008年13期
7 孟彩霞;;一种面向数据流的频繁项集挖掘算法[J];昆明理工大学学报(理工版);2009年05期
8 孟彩霞;;面向数据流的频繁项集挖掘研究[J];计算机工程与应用;2010年24期
9 陆亿红;;基于聚类的数据流挖掘技术的分析与研究[J];浙江工业大学学报;2007年03期
10 史金成;胡学钢;;数据流挖掘研究[J];计算机技术与发展;2007年11期
11 王秀坤;王铁存;周国能;冯维;;挖掘数据流近似频繁项的改进算法[J];计算机工程与应用;2008年13期
12 庄波;刘希玉;隆坤;;TWCT-Stream:数据流上的频繁模式挖掘算法[J];计算机工程与应用;2009年20期
13 王大将;孙洁;;数据流挖掘技术研究[J];统计与决策;2010年07期
14 马瑞民;王小龙;;数据流管理和挖掘技术探析[J];计算机应用研究;2006年08期
15 黄崇争;李海峰;陈红;;数据流上近似非可导项集的挖掘算法[J];计算机学报;2010年08期
16 王春霞;;基于Web数据挖掘的资源服务系统[J];郑州轻工业学院学报(自然科学版);2010年06期
17 罗莎;朱威;王培源;邹彤;郭唐永;;网络数据流分析方法[J];大地测量与地球动力学;2011年S1期
18 孟彩霞;;面向数据流的频繁模式挖掘研究[J];计算机应用研究;2009年11期
19 王树广;;分布式数据流上的连续异常检测[J];微电子学与计算机;2008年09期
20 仵雪婷;周明建;;数据流挖掘方法研究[J];计算机与现代化;2010年04期
中国重要会议论文全文数据库 前3条
1 姚丽娟;李庆忠;;传感器采样数据流查询技术[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
2 史金成;胡学钢;;基于约束的数据流聚类研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
3 王树广;;分布式数据流上的连续异常检测[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
中国博士学位论文全文数据库 前7条
1 崇志宏;基于屏蔽/汇总技术的数据流处理算法[D];复旦大学;2006年
2 孔英会;数据流技术及其在电力信息处理中的应用研究[D];华北电力大学(河北);2009年
3 尹志武;数据流挖掘若干问题的研究[D];上海交通大学;2007年
4 袁志坚;数据流突发检测若干关键技术研究[D];国防科学技术大学;2008年
5 敖富江;数据流频繁模式挖掘关键算法及其仿真应用研究[D];国防科学技术大学;2008年
6 孙焕良;基于空间划分的优化聚类算法及相关技术研究[D];东北大学;2005年
7 毛伊敏;数据流频繁模式挖掘关键算法及其应用研究[D];中南大学;2011年
中国硕士学位论文全文数据库 前10条
1 王燕;数据流查询和数据流挖掘在油田中应用的研究[D];大庆石油学院;2006年
2 郑学双;数据流中频繁项集挖掘研究[D];北京交通大学;2007年
3 史金成;基于相关性的数据流聚类及其应用研究[D];合肥工业大学;2007年
4 王磊;数据流频繁项集挖掘研究[D];南京航空航天大学;2008年
5 安静;数据流挖掘技术及应用研究[D];华北电力大学(河北);2008年
6 郑盈盈;移动网络聚类分析及其在数据流管理中的应用研究[D];合肥工业大学;2009年
7 李俊;基于滑动窗口的数据流频繁闭合项集挖掘研究[D];暨南大学;2008年
8 张小彬;数据流中频繁项集挖掘算法及其应用研究[D];五邑大学;2009年
9 陈崇超;基于EP的数据流分类算法研究[D];郑州大学;2007年
10 段跃兰;数据流闭合频繁模式挖掘算法的研究[D];哈尔滨工程大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978