收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

实时数据流相关性分析与挖掘技术研究

张天成  
【摘要】: 在实时监控、联机分析等应用领域,包括网络监控、股市分析、传感器网络、无线射频识别等等,需要对大量的动态数据进行连续的数据收集与分析处理。这些持续到达的数据具有多样性、快速性、实时性和时变性等特点,形成了难以预测的无界数据流。传统的数据库技术很难对其进行有效的管理,于是产生了数据流这一新型技术。近年来,有关数据流处理的研究得到了越来越多的关注。 面对源源不断到达的数据流,挖掘隐藏的相关关系,寻找潜在的客观规律,是数据流分析与挖掘的重要目标,而相似性查询是达到这一目标的重要手段,同时也是聚类、分类、频繁模式挖掘和异常检测等数据挖掘技术的基础。本文采用相关性系数作为相似性查询的度量标准,提出了一系列在多个时间序列数据流中进行快速相关性分析的算法;同时,对于以事件为特征的数据流,建立了相应的相似性分析模型,提出了以事件为中心的相似性分析方法。主要工作包括以下几点: (1)提出一种基于布尔表示的数据流压缩方法。将原始序列转换为反映数值升降的布尔序列,这样用一个较长的二进制数就可以表示复杂的数据流序列的变化趋势,继而利用高效的布尔运算来快速地获取分析结果。 (2)提出一种基于分层布尔表示的相关性检测算法HBR。首先将原始序列转换为反映其主体趋势的宏布尔序列,通过计算宏布尔序列的相关性,获取宏候选集;再将宏候选集中的序列转换为反映细节信息的微布尔序列,计算微布尔序列的相关性得到最终的候选集,从而大幅度降低运算开销。理论证明,对于任意两个时间序列,其皮尔逊相关性系数和转换后的布尔相关性系数具有一致性。 (3)提出一种基于布尔表示的数据流周期性探测技术。利用计算布尔自相关系数来快速地获取原始序列的周期特征。理论分析证明,布尔自相关系数曲线与原始序列自相关系数曲线极值点的对应位置几乎相同,完全可以从布尔自相关系数曲线中获取原始序列的周期信息。 (4)提出一种滑动窗口大小可自适应调整的相关性分析算法WACA。根据数据流序列的周期将多个数据流分成若干个可以有交集的组,将组中序列的平均周期作为该组滑动窗口的大小,然后再采用HBR算法进行同步相关性分析。当多个数据流的周期特性发生变化时,动态地重新分组以实现窗口大小的自适应调整。 (5)提出一种基于布尔表示的滞后相关性分析技术。首先将流序列转换为布尔序列,然后在任意两个布尔序列之间进行滞后相关性探测。理论分析证明,有限长序列的滞后相关系数与布尔滞后相关系数具有特定的函数关系,其单调性完全一致,通过后者就可以确定原始序列的滞后相关性;同时,对于两个具有滞后相关性的序列,原始序列的滞后相关系数曲线和布尔滞后相关系数曲线具有相同的变化趋势,对应一致的滞后时间,因此可以通过布尔滞后相关方法快速获取滞后时间。 (6)提出一种基于滞后相关的多数据流约减与重构方法。根据滞后相关性的探测结果,将多个数据流进行“对齐”,然后采用主成分分析对“对齐”的数据流进行降维处理。针对多个数据流中存在的重要数据,可以用较少的主成分对原始数据流序列进行重构。 (7)针对以事件为特征的流数据,建立了事件流相似性分析模型,提出一种基于事件片段共享度的事件流相似性分析算法EOS。本文首先分析了事件流的特点及应用需求,从相似的事件流一定会分享很多相同的事件片段这一基本事实出发,考虑事件片段的出现频率、权重和位置等因素,提出了基于事件片段共享度的相似性分析算法,大大减小了候选集的大小,提高了事件流相似性的检测效率。 总之,本文研究了有关数据流相关性检测和事件流相似性分析的几个基本问题,并且分别提出了新的解决方案。理论分析和实验报告表明,与现有数据流相应的分析方法相比,上述算法不仅满足精度要求,而且在时间和空间复杂度上具有明显的优势。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 孙波,吴继峰,卫东华;宽带接入网络的故障管理算法[J];计算机工程;2003年16期
2 于芹章;胡晓峰;罗批;司光亚;;基于事件流的国际政治仿真研究[J];系统仿真学报;2007年06期
3 翟永;徐进;王世杰;;一种事件驱动的RFID中间件研究[J];信息化研究;2009年01期
4 赖友源;;计算机语音查询系统开发[J];自动化应用;2010年07期
5 俞淑燕;徐浙君;;ActionScript3.0事件流机制应用研究[J];计算机与现代化;2011年01期
6 邵晓光,黄彦林,张艳霞;软件的维护过程[J];北方经贸;2001年02期
7 田跃欣;;入侵检测技术的研究与分析[J];中国科技信息;2007年24期
8 黄鹏;王鹏;汪卫;;面向事件流的频繁片断计数算法[J];计算机科学与探索;2010年10期
9 陈强;软件开发方法中的新技术——USECASE[J];广东广播电视大学学报;2002年02期
10 刘莹;王启荣;孙凝晖;;基于SN结构的事件流并行数据库加载均衡策略研究[J];计算机研究与发展;2009年01期
11 陆军;杨德仁;王勇;;基于GEF的图形编辑器技术研究[J];价值工程;2011年03期
12 赵以强;张龙波;;数据流管理系统研究现状分析[J];科技信息;2010年28期
13 王金栋;张磊;丁秋林;黄添强;;一种支持分布式数据流处理的双层重叠网络模型[J];应用科学学报;2006年04期
14 谢应科,张涛,韩承德;实时SAR成像系统中矩阵转置的设计和实现[J];计算机研究与发展;2003年01期
15 安红,孟建;基于数据流处理的雷达对抗仿真框架研究[J];电子对抗技术;2004年06期
16 杜威,邹先霞;基于数据流的滑动窗口机制的研究[J];计算机工程与设计;2005年11期
17 李浪;李仁发;;基于数据流异常挖掘的入侵检测系统设计[J];科学技术与工程;2008年13期
18 羌晨晨;;数据流关键技术研究概论[J];装备制造技术;2009年11期
19 孟军;张航黎;张建英;郭禾;;分布式数据流的渐增式聚集维护算法[J];微电子学与计算机;2006年10期
20 陈磊松;;数据流处理系统的负载控制策略研究[J];漳州师范学院学报(自然科学版);2009年03期
中国重要会议论文全文数据库 前10条
1 魏永超;陈立军;;数据流上复杂事件处理系统Eagle的设计与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
2 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 蔡致远;熊方;钱卫宁;周傲英;;核合并分析及其在数据流密度估计上的应用[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
4 尹婷;李红燕;;窗口模型下数据流查询流水化执行的研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 宋宝燕;陆岩;张俊宁;;数据流上的一种适应性查询优化及调度策略[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 吕雁飞;武珊珊;谷峪;许嘉;于戈;;一种数据流上统计性查询QoS的保证方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 周锐;肖川;王国仁;韩东红;霍欢;;数据流滑动窗口连接上的卸载技术的研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
8 霍欢;王国仁;陈庆奎;彭敦陆;;基于Hole-Filler模型的XML数据流上的SLCA算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
9 武珊珊;宋宝燕;袁锋;于亚新;于戈;;数据流模型研究[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 闫朝升;李建中;李金宝;;数据流上滑动窗口技术的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 张天成;实时数据流相关性分析与挖掘技术研究[D];东北大学;2008年
2 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
3 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
4 郭立超;数据流挖掘若干技术研究及其在电信行业的应用[D];浙江大学;2011年
5 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
6 李军;基于用户行为挖掘的数据流管理技术研究[D];北京邮电大学;2012年
7 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
8 孟和;无线内容下载平台中事件流处理应用研究[D];天津大学;2009年
9 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
10 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 何登成;数据流上复杂序查询的研究与实现[D];浙江大学;2010年
2 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
3 刘娜;离散型数据流在线关联分析[D];大连理工大学;2012年
4 李有生;一种改进的数据流处理算法的研究与实现[D];吉林大学;2010年
5 何江燕;基于数据流的聚类分析算法研究[D];兰州交通大学;2010年
6 李燕;面向含噪数据流的概念漂移集成分类研究[D];合肥工业大学;2011年
7 罗秀;数据流在线分类算法的研究与实现[D];东北大学;2009年
8 由欣;基于有向图构造的数据流预测算法的研究[D];哈尔滨工程大学;2011年
9 张育培;非平稳数据流的概念漂移检测及其分类[D];郑州大学;2013年
10 周云霞;基于数据流的油水井工况趋势分析方法研究[D];东北石油大学;2013年
中国重要报纸全文数据库 前10条
1 《Infoworld》;2005创新之星(上)[N];计算机世界;2005年
2 ;下一代软硬件工具助力RFID[N];计算机世界;2006年
3 计算机世界实验室 吴挺;Intel的专业“核动力”[N];计算机世界;2007年
4 清华大学 谢晓芹;如何用好构件?[N];计算机世界;2002年
5 编译 讯源;下一代RFID工具促进市场发展[N];计算机世界;2006年
6 博文 译;用ESB实现SOA[N];计算机世界;2007年
7 北京 冬梅;P4时代真的来了吗[N];中国电脑教育报;2001年
8 ;立体防护“中枢神经系统”[N];网络世界;2003年
9 ;NetScreen-IDP 500 高端入侵检测与防护设备[N];计算机世界;2003年
10 甘久斌;如何有效管理宽带用户[N];通信产业报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978