收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

流数据统计算法研究

聂国梁  
【摘要】: 流数据是近年来出现的一种新型的数据模型,在许多应用领域出现频繁,表现形式各异,例如:网络监测时的IP数据包、股票分析时的股票信息、电信公司的通话记录、传感器网络发送的信号等等。与传统的数据模型相比,流数据具有如下特点:实时到达,速率多变;连续到达,次序独立;规模宏大,不能预知其极值;一经处理,除非特意保存,否则不能再次取出处理。这些特点导致了流数据不能全部保存,只能实时地单遍访问。与传统数据库应用系统相比,流数据应用系统往往需要支持连续查询和近似结果统计。因此,无法利用传统数据库技术有效地管理流数据,越来越多的研究人员开始对流数据的相关问题进行研究。 流数据的统计反映了流数据的当前状态,在许多决策系统中扮演着重要的角色,同时也是流数据挖掘的一个重要基础。由于流数据的独特性,传统统计算法不适用于流数据。因此,流数据统计已成为一个迫切需要解决的问题。 基于滑动窗口模型,给出了一种优化的指数级直方图--松散性指数级直方图和结构维持算法。利用对数空间,该方案解决了流数据的实时近似求和问题,相比已有方法,有明显的时空优势。把松散性指数级直方图应用到流数据计数问题上,充分考虑了流数据的相似度,定义了相似度函数,设计了一种系统框架,给出了一种解决最近N个流数据元素个数统计问题的算法,该算法保证相对误差不大于指定阈值,且流数据相似度越大,时空优势越明显。对于最大(小)值的统计问题,设计了一种算法,该算法利用链式结构,动态维护当前活动窗口中的最大值,针对内存利用过大的情况,给出了压缩策略,该算法利用少量的空间,解决了滑动窗口模型下的流数据最大值统计问题。 相比聚集统计,热门元素统计更能准确地描述流数据的当前状态。给出了两种单遍访问算法--梯形过滤算法和波浪筛选算法,解决了滑动窗口模式下的流数据热门元素统计问题,保证统计结果不会遗漏任何满足条件的热门元素。梯形过滤算法应用指数级直方图来统计流数据元素的出现次数,对直方图实行周期性的压缩以删除不需要的元素和统计,该算法尤其适于分布不均匀的流数据,在此情况下,即使滑动窗口的尺寸增加,候选数据集尺寸仍保持稳定。波浪筛选算法通过对子窗口进行周期性地创建和删除,来统计元素的出现次数,其中每个子窗口拥有一个独立的概要数据结构,对每一次查询,该算法保证输出的数据个数不会过多。 相比前两种统计,密度估计更能详实地反映流数据的当前状态--流数据的分布特点。基于核心密度估计法,给出了一种适合流数据特点的密度估计算法。该算法利用远远小于数据长度的空间,通过对流数据进行窗口划分,为单个窗口保留少量的分布信息,再综合所有窗口信息,从而对流数据的密度分布进行实时评估。 以上的统计都反映了流数据的当前状态,而没有描述出流数据状态的变化情况,为此设计了一种流数据变化检测方案。该方案采用在两个相邻窗口中出现次数变化大的元素来描述流数据的变化:首先,把单个窗口中的流数据划分成若干层,在每层上对元素值域进行分段;然后,在每层上定义若干分段集合,并对分段集合进行求和运算;最后,通过对两个窗口的概要结构进行合并,利用集合分解,求得出现次数变化大的元素,以描述流数据的变化情况。该方案以一定的概率,输出满足条件的元素,而需要的空间却远远小于流数据尺寸。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 聂国梁;卢正鼎;;流数据实时近似求和的算法研究[J];小型微型计算机系统;2005年10期
2 蔡妮明;王翰虎;陈梅;;一种基于滑动窗口的流数据聚类算法[J];计算机技术与发展;2011年01期
3 冯卫兵;李战怀;;流数据的连续查询优化技术[J];计算机应用研究;2008年01期
4 陈照阳;黄上腾;;流数据分类中的概念漂移问题研究[J];计算机应用与软件;2009年02期
5 崔毅东;林宇;徐雅静;徐惠民;;新的基于逐跳时间标签的链路利用率测量方法[J];北京邮电大学学报;2006年02期
6 方义秋;杨曦;;基于滑动窗口的车辆计数和位置预测[J];微计算机信息;2008年18期
7 邝祝芳;阳国贵;辛动军;;SWFPM:一种有效的数据流频繁项挖掘算法[J];计算机应用研究;2009年02期
8 苏纯洁;带服务器的三台平行机排序问题的复杂性和近似算法[J];应用数学学报;2003年03期
9 宋海洲;TSP问题的一种快速近似算法及应用[J];华侨大学学报(自然科学版);2005年03期
10 杨宪泽,雷开彬,吴守宪,张上游,宁爱华;一种句型转换和近似机器翻译方法及算法[J];计算机工程与科学;2005年11期
11 陈刚;徐青川;;机械手抓取排序问题(MSP)的最小权匹配算法[J];西安科技大学学报;2005年04期
12 聂国梁;卢正鼎;;流数据密度估计[J];计算机科学;2006年12期
13 樊广佺;王小牛;杨炳儒;;平面点集凸壳的一种近似算法[J];计算机工程与应用;2007年12期
14 王继强;李国君;;基于设施选址的Steiner问题的算法[J];计算机科学;2007年09期
15 郭文兰;张彤;;矩形件排样优化的双向双原算法[J];哈尔滨理工大学学报;2008年02期
16 许金星;吴素萍;;旅行售货员问题的图论近似算法[J];计算机工程与应用;2009年32期
17 何晓琼;陈冲;李荣珩;;工厂地址集中的k-种产品选址问题的近似算法[J];计算机工程与应用;2010年08期
18 王晨;杨曙;;A型变尺寸装箱问题之模型及算法研究[J];计算技术与自动化;2010年03期
19 何勇;互联网通信中的信息选取与分布问题的建模与求解[J];计算机学报;2001年06期
20 高磊,张德运,王晓东,安智平;改进的基于拓扑分析的Steiner树近似算法[J];西安交通大学学报;2003年10期
中国重要会议论文全文数据库 前10条
1 汪罕;赵加奎;陈立军;;流和滑动窗口模型下的直径计算(英文)[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 杨宜东;孙志挥;周晓云;;滑动窗口中的变化检测[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 邝祝芳;谭骏珊;杨卫民;辛动军;;基于渐增最小支持度函数的数据流频繁项挖掘[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
4 佟毅;;密度估计函数的L_r阶收敛性[A];中国现场统计研究会第九届学术年会论文集[C];1999年
5 王伟平;李建中;张冬冬;郭龙江;;数据流上基于时间滑动窗口的连接算法研究[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
6 杨兴华;于亚新;于戈;欧征宇;武珊珊;;一种数据流滑动窗口上的索引连接策略[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 张龙波;李战怀;余敏;王勇;蒋芸;;面向数据流滑动窗口的随机抽样算法研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
8 沙瀛;谭建龙;;一种采用拟合曲线计算滑动窗口下数据流的最大值/最小值的方法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
9 王栩;李建中;王伟平;;基于滑动窗口的数据流压缩技术及连续查询处理方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 闫朝升;李建中;李金宝;;数据流上滑动窗口技术的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 聂国梁;流数据统计算法研究[D];华中科技大学;2006年
2 秦首科;数据流上的异常检测[D];复旦大学;2006年
3 丛伟杰;几类几何最优化问题的近似算法研究[D];西安电子科技大学;2011年
4 陈华辉;基于遗忘特性的数据流概要结构及其应用研究[D];复旦大学;2008年
5 陈俊波;频繁闭合项集挖掘算法及应用研究[D];浙江大学;2009年
6 杨蓓;数据流top-K频繁模式挖掘算法研究[D];北京交通大学;2009年
7 杨朝霞;超图嵌入圈问题的近似算法[D];山东大学;2010年
8 屠莉;流数据的频繁项挖掘及聚类的关键技术研究[D];南京航空航天大学;2009年
9 姜海涛;基因组比较算法研究[D];山东大学;2011年
10 沈灏;与Due Date相关的排序问题研究[D];浙江大学;2002年
中国硕士学位论文全文数据库 前10条
1 王磊;数据流频繁项集挖掘研究[D];南京航空航天大学;2008年
2 刘东;网络安全事件流聚集统计分析研究与实现[D];国防科学技术大学;2010年
3 张鑫;工件有尺寸的平行机分批排序问题[D];曲阜师范大学;2005年
4 刘新;一种改进的求解TSP算法[D];湘潭大学;2005年
5 马冉;工件有优先约束的分批排序问题[D];曲阜师范大学;2006年
6 文园;天线三维辐射方向图的近似计算方法[D];西安电子科技大学;2007年
7 黄林;配送服务时间可靠性研究[D];长沙理工大学;2008年
8 张群发;具有相容约束条件的单机平行分批排序问题[D];郑州大学;2005年
9 张永生;移动通信系统中的信道分配算法研究[D];兰州理工大学;2007年
10 赵卫中;欧氏平面上货郎问题的一个多项式时间近似方案的改进与实现[D];山东大学;2007年
中国重要报纸全文数据库 前10条
1 PALADIN;近似算法[N];电脑报;2003年
2 记者 孙锦;共同寻求解决统计问题新途径[N];深圳特区报;2011年
3 马震;英丢30公斤钚,能造七八枚原子弹[N];新华每日电讯;2005年
4 王建平 王晓颖 龙昊 秦伟;我国软件出口统计问题研究[N];中国计算机报;2004年
5 中国青年报知名评论员 曹林;局长一脸红,舆论就激动[N];四川日报;2009年
6 王亚权 陈曙文;旅游投诉的统计问题[N];中国旅游报;2005年
7 ;《资源环境统计》[N];中国信息报;2004年
8 本报评论员;从“黑砖窑”事件看工会的作为[N];南方日报;2007年
9 ;有道搜索推出在线翻译服务[N];计算机世界;2008年
10 李晓东;TCP整型,QoS的阳光大道?[N];计算机世界;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978