收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

数据流分析关键技术研究

苏亮  
【摘要】: 随着硬件、网络与通信技术的飞速发展和现实应用需求的持续推动,数据流(Data Stream)作为一种新的数据类型,在诸如金融分析、网络数据管理、移动对象跟踪、通信网监控和传感器网络数据处理等众多领域有着广泛的应用。传统的数据库查询处理技术通常只适合处理存储在磁盘或内存等介质中的静态数据,难以直接应用到无限、连续、快速、“单遍扫描”的数据流中,因而,数据流应用对数据管理与分析提出了更高的要求。如何从海量流数据中快速提取有价值的信息已成为数据库及相关研究领域面临的一个重大挑战。 数据流相关研究已经引起了学术界和工业界的广泛关注,现有的研究可大致分为数据流管理和数据流分析两个方面。本文在总结和分析国内外已有研究工作的成果与不足的基础上,针对数据流分析中的四个重要问题:离群点检测、Skyline计算、子序列匹配和高效索引结构,展开深入研究,主要工作包括: 1.在分布式数据流离群点检测方面。在比较和分析现有离群点度量的基础上,结合核密度估计技术扩展了基于距离和基于密度的离群点定义。针对分布式数据流离群点检测中面临如何提高全局离群点检测率和降低网络通信开销的两大问题,以常见的星型网络拓扑模型为基础,提出了一种高检测率、低通信开销的分布式数据流离群点检测算法—DisOutlierStreams。采用非参数核密度估计技术快速计算出当前滑动窗口内流数据的概率密度函数,结合指数衰减策略处理数据流的动态演化性,通过散度技术(Divergence Technology)在检测率可控的前提下较大地减少了协调结点与其子结点之间的通信开销。在算法的具体实现上,充分发挥了Matlab软件强大的符号和数值计算功能。理论分析和实验结果表明,与已有同类数据流离群点检测算法相比,该方法的网络传输量与滑动窗口大小无关,更有效地降低了网络通信开销,具有良好的性能和可扩展性。 2.在数据流稀疏Skyline计算方面。由于Skyline集合的平均数目与数据点数和数据维数成指数增长,并受数据分布的严重影响,从而Skyline集合的急速增长严重降低了在线服务和决策支持等应用的服务质量。针对该问题,首先在总结已有Skyline计算的相关工作基础上,采用一个Skyline点来代表其周围在可接受偏差δ邻域内的所有Skyline点,给出了数据流稀疏Skyline问题的形式化定义。然后,提出了两个算法:基于界限裁剪的BSS算法和基于特征树的ESS算法。前者以现有数据流Skyline算法为基础,通过界限裁剪策略降低稀疏Skyline的计算开销;而后者则直接对滑动窗口内的流数据构建其稀疏Skyline特征索引树,并支持增量更新、可根据数据分布自适应地调整稀疏Skyline的计算结果。最后实验结果表明,与BSS算法相比,ESS算法具有更强的可控性和更高的处理效率。 3.在数据流子序列匹配方面。子序列匹配问题在时间序列数据库中早有研究,但数据流子序列匹配还处于发展初期。本文在总结并分析现有序列匹配度量差异的基础上,选用抗噪音和形变效果良好的动态时间弯曲距离(Dynamic Time WarpingDistance)作为序列匹配的衡量标准,将数据流子序列匹配归纳为“最佳匹配”、“区域匹配”、“最优区域匹配”和“Top-K最优区域匹配”四个子问题。针对已有数据流子序列匹配算法中时间弯曲矩阵计算开销过大的问题,提出了一种低时空复杂度、近实时的数据流子序列匹配算法—FSM,它充分利用相似性阈值和上下界剪枝技术尽量减少时间弯曲矩阵中的冗余计算。理论分析和实验结果表明,与已有数据流子序列匹配算法相比,算法准确率并未有任何降低,在合理设置相似性阈值和查询序列的情况下,仅需增加几个字节的空间开销,计算速度提高明显,特别是在高维流数据和长查询序列下性能提升更为显著。 4.在数据流索引结构方面。索引技术是提高数据流查询与分析性能的关键技术之一。本文在比较并分析现有支持数据流频繁更新的R-Tree变种索引的基础上,针对数据流索引结构更需同时考虑如何提高索引更新性能和降低索引存储开销的问题,提出了改进的高效数据流索引结构—QDM-Tree,并给出了相应的数据插入、删除和查询算法。该索引树利用Hash表替换耗时的索引遍历,并支持数据流的Lazy组删除策略;采用“自底向上”的索引更新方式,并结合R-Tree结点的量化压缩技术。实验结果表明,与已有同类索引树相比,QDM-Tree的存储开销与之相当,而更新和查询的性能均有明显的提升。 综上所述,本文针对数据流分析中四个关键问题提出了更为高效的解决方法,并就其计算、存储、通信等开销作了全面的分析,对于数据流的理论研究和实用化具有一定的理论意义和应用价值。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 孔亦南;黄林鹏;;应用数据流分析法求解程序运行时信息相关问题的研究[J];计算机应用与软件;2007年02期
2 罗昕,郭福顺,王晓丽;一种全局数据流分析的新方法[J];小型微型计算机系统;1993年06期
3 唐发根,姚淑珍;基于静态分析的Ada数据流分析方法[J];电子计算机与外部设备;1997年01期
4 钟洪涛,舒继武,温冬婵,郑纬民;基于区域图数据流分析的通信优化算法[J];软件学报;2003年02期
5 肖夏;高校学生宿舍管理系统的设计[J];福建电脑;2004年06期
6 陈蕊;张广梅;李晓维;;程序中不可达路径的检测方法[J];计算机工程;2006年16期
7 刘学军;徐宏炳;董逸生;钱江波;王永利;;基于最大频繁项集信息熵的数据流变化检测[J];应用科学学报;2006年05期
8 李慧贤,刘坚;数据流分析方法[J];计算机工程与应用;2003年13期
9 梁洪波;慕晓冬;帅桂华;常瑞花;;基于VC++的数据流分析方法[J];微型电脑应用;2008年04期
10 谢亿鑫;孙乐昌;刘京菊;;基于数据流分析的SQL注入漏洞发现技术研究[J];微计算机信息;2010年15期
11 周铨兴,刘年宝;雷达中的分布式计算机系统[J];上海航天;1999年02期
12 汪小飞;赵克佳;田祖伟;;数据流分析的关键技术研究[J];计算机科学;2005年12期
13 陈启崧;;高维数据流映射聚类算法的研究概述[J];福建电脑;2007年04期
14 林国平;陈磊松;;一种网格和分形维数的数据流聚类算法[J];郑州大学学报(理学版);2009年02期
15 刘军发,李建华;基于DFA将DOS软件Windows化研究[J];电脑开发与应用;1999年03期
16 高永梅;黄亚楼;;一种基于网格和密度的数据流聚类算法[J];计算机科学;2008年02期
17 方霞;尹青;蒋烈辉;黄海;何红旗;;基于数据流分析的寄存器参数恢复方法[J];计算机工程;2009年22期
18 赵东范;基于数据流表达式的程序数据流分析算法[J];长春邮电学院学报;1997年02期
19 张乐剑;廖建新;黄海;;面向3G的内容计费的研究[J];现代电信科技;2006年06期
20 董文莉;胡建华;;基于BPEL的Web Service组合的数据流分析测试方法(英文)[J];软件学报;2009年08期
中国重要会议论文全文数据库 前10条
1 于浩;王斌;肖刚;杨晓春;;基于距离的不确定离群点检测[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
2 朱永泰;王晨;汪卫;施伯乐;;高效的图索引结构[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 曹奎;冯玉才;袁芳;;一种支持基于内容的图像检索的多维索引结构[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 许俭;吴天轶;王晨;汪卫;施伯乐;;聚集值近似查询的基于密度树索引结构(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 王斌;郭庆;李中博;杨晓春;;支持块编辑距离的索引结构[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
6 张龙;周傲英;郑仕辉;梁宇奇;;一种可行的层次型XML仓库索引结构[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 李东;张静玲;王亮明;;一种XML集成索引结构[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
8 汪卫;王勇;王宇君;施伯乐;;一维动态区间索引结构[A];数据库研究进展97——第十四届全国数据库学术会议论文集(上)[C];1997年
9 张广梅;陈蕊;李晓维;;面向软件故障检测的数据流分析[A];全国第13届计算机辅助设计与图形学(CAD/CG)学术会议论文集[C];2004年
10 丁道峰;吴红伟;王晓玲;周傲英;;D(k,l)-索引:一种自适应的XML数据索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 苏亮;数据流分析关键技术研究[D];国防科学技术大学;2008年
2 唐向红;数据流离群点检测研究[D];华中科技大学;2010年
3 夏一民;缓冲区溢出漏洞的静态检测方法研究[D];国防科学技术大学;2007年
4 贺玲;面向大规模图像库的层次化索引机制研究[D];国防科学技术大学;2006年
5 马晓东;C程序内存错误静态分析技术研究[D];国防科学技术大学;2009年
6 张泽宝;空间数据库的索引技术研究[D];哈尔滨工程大学;2009年
7 廖巍;面向位置服务的移动对象索引与查询处理技术研究[D];国防科学技术大学;2007年
8 董道国;高维数据索引结构研究[D];复旦大学;2005年
9 姚剑波;基于句法分析的安全信息流[D];贵州大学;2006年
10 周黔;高性能数据流模式发现算法及其应用研究[D];浙江大学;2008年
中国硕士学位论文全文数据库 前10条
1 孙冬璞;基于时空数据库的轨迹最近邻索引的研究[D];哈尔滨理工大学;2007年
2 邱伯仁;生物序列的索引研究及其应用[D];复旦大学;2009年
3 陈波;XML文档数据查询技术研究[D];山东大学;2005年
4 林恩爱;基于聚类的分层索引结构在图像检索中的应用研究[D];北京交通大学;2006年
5 钟细亚;时空数据库索引技术研究[D];华中科技大学;2006年
6 朱清华;支持XML数据更新的编码方案与索引技术研究[D];湖南师范大学;2009年
7 李明;无线传感器网络中离群点检测算法研究[D];江苏大学;2010年
8 于浩;面向概率数据流的离群点检测技术[D];东北大学;2009年
9 余灿玲;基于密度的不确定离群点检测研究[D];云南大学;2010年
10 张天佑;基于网格划分的高维大数据集离群点检测算法研究[D];中南大学;2011年
中国重要报纸全文数据库 前10条
1 ;关于建立高校毕业生就业见习制度的通知[N];中国人事报;2006年
2 本报记者  潘继红;亚航展有望成为全球最大民用航空工业展会[N];国际商报;2007年
3 任征 文伟;国防电子展搭建贸易良好平台[N];中国贸易报;2006年
4 蒙志军;加快创新步伐 提供科技支撑[N];湖南日报;2007年
5 证券时报记者 李坤李沫;江苏三友参与北斗系统产品研发[N];证券时报;2007年
6 廖文根;779个项目荣获国防科技奖[N];人民日报;2007年
7 本报记者 刘立红;点亮和谐家园的明灯[N];中国老年报;2009年
8 本报记者 王握文;问题的支点作用有多大[N];解放军报;2009年
9 记者 郑黎;省政府与国防科工委共建长春理工大学[N];长春日报;2006年
10 本报记者 李亦金曹卫新;江苏三友支持北斗卫星系统项目[N];证券日报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978