收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

数据流挖掘若干关键技术研究

吴枫  
【摘要】: 随着计算机硬件、网络通信和分布计算技术的飞速发展,产生了一种新型的数据类型—数据流,它广泛存在于诸如互联网监控、金融分析、传感器网络、天气或环境监测等领域中。传统的数据处理技术适合处理静态、稳定的数据集,难以直接扩展至无限、快速、变化、持续的数据流场景中,因此,如何管理和分析这些数据流,特别是,通过数据流挖掘及时检测网络异常等问题,成为新一代计算理论和应用的研究难点。 本文在总结和分析国内外现有研究工作的基础上,围绕数据流挖掘的四个关键技术:相似性搜索技术、频繁模式挖掘技术、数据流分类技术和数据流任意形状聚类技术展开深入研究,主要工作包括: 1、在数据流相似性搜索方面,针对数据流上难以建立索引结构的特点,基于动态时间扭曲距离函数(DTW, Dynamic Time Warping),通过对其下限函数的研究,利用数学中的分段、填充元和行列约束度等概念,构造了一组适合不同场景的数据流相似性度量函数及其配套的上下界精化函数,进而提出了相应的数据流相似性搜索算法。理论分析和统计实验表明,本文构造的函数和搜索算法计算复杂度低,相似性程度高,在数据流相似性搜索中有很好的应用前景。 2、在数据流频繁模式挖掘方面,针对数据流的时效性和流中心的偏移性特点,提出了界标窗口模型与时间衰减模型相结合的数据流频繁模式挖掘算法。该算法通过动态构建全局模式树,利用时间指数衰减函数对模式树中各模式的支持数进行统计,以此刻画界标窗口内模式的频繁程度;进而,为有效降低空间开销,设计了剪枝阈值函数,用于对预期难以成长为频繁的模式及时从全局树中剪除。论文对出现在算法中的重要参数和阈值进行了深入分析。一系列试验表明,与现有同类算法MSW相比,该算法挖掘精度高(平均超过90%),内存开销小,速度上可以满足高速数据流的处理要求,且可以适应不同事务数量、不同事务平均长度和不同最大潜在频繁模式平均长度的数据流频繁模式挖掘。 3、在数据流分类方面,传统的后向传播算法难以满足数据流实时处理的要求。基于核主成份分析算法,通过对其增量化求解方法的研究,构造了旨在降低分类处理量的维数约减算法;进而结合BP神经网络提出了相应的数据流分类算法。理论分析和统计实验表明,本文构造的维数约减算法时空复杂度低、收敛性能稳定,分类算法能够满足数据流实时处理要求,且分类精度较高。 4、在数据流任意形状聚类方面,针对数据流的时效性和概念漂移特性,提出了滑动窗口模型与时间衰减模型相结合的数据流任意形状聚类算法。该算法应用时间衰减模型以指数级速度衰减历史元组密度,使当前滑动窗口外元组的密度近似衰减至零;通过构建六元组聚类特征结构,在界标窗口内统计微簇的衰减密度,以此刻画其在滑动窗口内的疏密程度。并运用剪枝策略,对当前窗口中稀疏微簇和窗口外微簇及时进行剪枝,从而有效地降低了空间开销和维护代价。一系列试验表明,与现有同类算法DenStream相比,该算法聚类速度快,内存开销小,且可以适应不同长度、维数和自然簇个数的数据流任意形状聚类。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 潘云鹤;王金龙;徐从富;;数据流频繁模式挖掘研究进展[J];自动化学报;2006年04期
2 庄波;刘希玉;;数据流中频繁模式挖掘算法研究及进展[J];福建电脑;2008年03期
3 王卉,李庆华,马传香,李肯立;频繁模式挖掘中的剪枝策略[J];计算机工程与科学;2003年04期
4 范明;王秉政;;一种直接在Trans-树中挖掘频繁模式的新算法[J];计算机科学;2003年08期
5 朱永泰,王晨,洪铭胜,汪卫,施伯乐;ESPM——频繁子树挖掘算法[J];计算机研究与发展;2004年10期
6 黄金;;基于频繁模式的蛋白质序列分类[J];东北农业大学学报;2008年05期
7 范明,李川;在FP-树中挖掘频繁模式而不生成条件FP-树[J];计算机研究与发展;2003年08期
8 任家东,任东英,高伟;分布式多层关联规则挖掘[J];计算机工程;2003年05期
9 王新宇,杜孝平,谢昆青;FP-growth算法的实现方法研究[J];计算机工程与应用;2004年09期
10 叶飞跃,王建东,庄毅,吕宗磊;一种挖掘频繁模式的数据库划分新方法[J];系统工程与电子技术;2004年11期
11 杨华兵,叶新郢,张宁蓉;入侵检测中频繁模式的有效挖掘算法[J];情报指挥控制系统与仿真技术;2005年01期
12 叶飞跃;基于自适应哈希链的分布式频繁模式挖掘算法[J];系统工程与电子技术;2005年03期
13 初永玲;李绍春;;数据挖掘中关联规则挖掘算法的探讨与研究[J];科技信息(科学教研);2008年16期
14 李小斌;钱建生;赵志凯;王卿斌;宋万宝;何霁野;;频繁模式支持向量回归的约简表示[J];小型微型计算机系统;2009年05期
15 唐懿芳;穆志纯;张师超;钟达夫;;挖掘数据流频繁模式的相关技术和算法研究综述[J];计算机工程与应用;2009年26期
16 程转流;王本年;;数据流中的频繁模式挖掘[J];计算机技术与发展;2007年12期
17 史志英;张伟;陈春燕;;基于频繁模式的数据流聚类算法[J];微计算机应用;2008年01期
18 潘怡;杜红燕;;概念格在频繁模式挖掘中的应用研究[J];湖南科技大学学报(自然科学版);2010年02期
19 朱淳清;蒋华;;一种基于升序FP-tree的频繁模式挖掘算法[J];网络安全技术与应用;2006年08期
20 刘君强,王勋,孙晓莹;多维多层关联规则有效挖掘的新算法[J];南京大学学报(自然科学版);2003年02期
中国重要会议论文全文数据库 前10条
1 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 林景亮;董槐林;姜青山;吴书;;一种基于新增阈值的频繁模式挖掘算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 任家东;孙亚非;郭盛;;基于约束的交互式频繁模式挖掘算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 魏永超;陈立军;;数据流上复杂事件处理系统Eagle的设计与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
5 韩蒙;张炜;李建中;;RAKING:一种高效的不确定图K-极大频繁模式挖掘算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
6 楚红涛;寒枫;张燕;王婷;;基于数据流的挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
7 蔡致远;熊方;钱卫宁;周傲英;;核合并分析及其在数据流密度估计上的应用[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
8 王鹏;吴晓晨;王晨;汪卫;施伯乐;;CAPE——数据流上的基于频繁模式的分类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 曾涛;向勇;包小源;刘胤田;蒋永光;;中医古方挖掘:一种频繁药组发现与功效标注算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
10 尹婷;李红燕;;窗口模型下数据流查询流水化执行的研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
2 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
3 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
4 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
5 郭立超;数据流挖掘若干技术研究及其在电信行业的应用[D];浙江大学;2011年
6 李军;基于用户行为挖掘的数据流管理技术研究[D];北京邮电大学;2012年
7 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
8 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
9 Mahmoud Sami Soliman;[D];中南大学;2010年
10 胡文生;XML数据流上基于窗口的查询处理方法研究[D];武汉大学;2012年
中国硕士学位论文全文数据库 前10条
1 黄威;数据流的频繁模式挖掘算法研究[D];西安科技大学;2010年
2 尤钢;网上银行数据流频繁模式挖掘算法研究及应用[D];浙江工商大学;2010年
3 刘华雷;面向数据流的频繁模式挖掘算法研究[D];东北大学;2008年
4 杜志刚;基于数据流的挖掘算法研究[D];西安科技大学;2012年
5 何辉玲;数据流中基于优化的FP-tree的频繁模式挖掘方法研究[D];燕山大学;2010年
6 谭越;一种基于全局频繁模式的数据挖掘算法及系统实现[D];华中科技大学;2011年
7 詹海鹏;数据流频繁项集挖掘系统的研究[D];武汉理工大学;2011年
8 范玉玲;基于可变滑动窗口的数据流闭合频繁模式挖掘研究[D];江苏科技大学;2011年
9 何登成;数据流上复杂序查询的研究与实现[D];浙江大学;2010年
10 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
中国重要报纸全文数据库 前9条
1 计算机世界实验室 吴挺;Intel的专业“核动力”[N];计算机世界;2007年
2 北京 冬梅;P4时代真的来了吗[N];中国电脑教育报;2001年
3 ;立体防护“中枢神经系统”[N];网络世界;2003年
4 ;NetScreen-IDP 500 高端入侵检测与防护设备[N];计算机世界;2003年
5 甘久斌;如何有效管理宽带用户[N];通信产业报;2002年
6 ;港湾网络多业务万兆城域网解决方案[N];人民邮电;2003年
7 李勇;降低投资70%[N];中国计算机报;2003年
8 记者 郭姜宁;企业级电子商务资金流网络管理系统问世[N];科技日报;2001年
9 ;在移动互联网里推广IPv6[N];人民邮电;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978