收藏本站
《复旦大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

数据流相似性查询及模式挖掘研究

郭建奎  
【摘要】: 随着数据挖掘研究领域的不断拓宽和研究内容的不断深入,人们发现应用中越来越多的数据是以流的形式产生的,例如网络流,网页点击流,交通流以及传感器网络数据等等。分析和挖掘这类数据日益成为一个热点问题。其中,分析流数据间的相似性和模式发现成为重要的研究内容。研究数据流的相似性查询对于完善数据流查询、改进数据流系统等都有着重要的应用价值,并且对于在数据流上进行分类、聚类等也有着指导意义。当前在数据流环境下相似性查询和模式发现的研究工作没有充分考虑数据流数据自身的特点,往往假定内存空间无限或者不满足增量更新。另一方面,据我们所知,目前还没有相关工作系统地解决相似性查询的问题。 基于此,本文着重研究数据流环境下相似性查询及模式发现问题,主要包括如下三个关键方面: (1)基于Lp距离,提出系统解决数据流环境下相似性查询的技术。 在数据流环境下,基于Lp距离函数,本文系统的提出了一个解决相似性查询的框架,用以解决数据流环境下相似性查询。在充分分析数据流数据的特点后,提出一种新颖的数据结构SDS-Tree(the Same-DirectedSlope Tree)来分层表示数据流对象,实现对原始数据流的表示。基于Lp距离,本文证明SDS-Tree的有效性,并且进一步给出一个相似性判别中更为有效的粒度。基于有效的SDS-Tree结构,文章分别给出有效处理单一固定窗口下的相似性查询算法ASQFSW(Algorithm for SimilarityQueries in Fixed Sliding Window)以及滑动窗口下的增量相似性查询算法IASQSW(Incremental Algorithm for Similarity Queries in SlidingWindows)。特别,IASQSW算法找到了窗口滑动时数据流数据变化的一个上界,根据该上界,算法只需更新有限的SDS-Tree结点,就能够完成窗口滑动时的相似性查询。详细的理论分析以及大量的实验评估表明,我们给出的技术和方法显著优于目前的研究方法。 (2)针对Lp距离无法解决时间弯曲的现象,为提高在数据流环境下相似性查询的准确度,提出了基于DTW距离的相似性查询的技术。 在数据流环境下,使用Lp距离无法解决时间弯曲现象。为提高在一些应用场合中相似性匹配的准确度,基于DTW距离,提出了一个解决相似性查询的算法ESDS(Estimating Similarity on Data Streams)。算法根据数据流数据的变化特性提出了数据分段的思想,每段数据仅用三个数值(最大值,最小值和差异值)来表示原始数据流的特性。为保证数据特征提取的有效性,根据数据变化的规律,提出了振荡数据的概念,并给出了判断数据流中是否存在振荡数据的算法judgeSurge。为保证对振荡数据的处理不会影响到数据流的特性,进一步提出了有效振荡和最大有效振荡幅度的概念,设计了求解有效振荡数据的算法judgeValidSurge和求解最大有效振荡幅度的算法calMaxScope。算法基于特征数据,设计了新的DTW距离函数,基于动态规划算法,设计了在数据流环境下进行相似性判别的算法ESDS。详细的理论分析以及大量的实验评估表明,文章给出的技术和方法具有很高的准确度和效率。 (3)针对Web流数据,设计了两个Web流模式挖掘算法。 数据流间的相似性查询在Web数据流中有重要的应用价值。文章首先分析了Web流数据的特征,然后着重研究了Web流数据的模式发现问题。在充分分析经典算法WAP-mine的缺陷后,首先针对WAP树结构设计了一个自顶向下挖掘的算法TD-WAP-mine。算法避免了在挖掘频繁模式过程中每次需要构造大量中间数据,而直接对原始的WAP树进行挖掘,节省了生成中间数据的代价,在支持度比较小或者原始Web流数据过于大的情况下,TD-WAP-mine表现出更好的性能。其次,针对WAP树存在数据冗余情况,提出了压缩WAP树的概念,在不影响挖掘结构的前提下,设计了压缩WAP树算法,并且直接对WAP树投影,设计了一个自顶向下的挖掘算法TAM-WAP,在大规模实验集上的实验表明,TAM-WAP算法表现出更好的性能和伸缩性。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP311.13

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 魏晓燕;和占辉;伊波;徐亮;李学卫;李兰周;李佛琳;;丽江植烟气象、土壤及烟叶品质空间相似性算法研究[J];云南农业大学学报(自然科学);2011年S2期
中国硕士学位论文全文数据库 前1条
1 符桂英;水声通信中信令检测算法的研究[D];华南理工大学;2011年
【参考文献】
中国期刊全文数据库 前4条
1 王涛;李舟军;颜跃进;陈火旺;;数据流挖掘分类技术综述[J];计算机研究与发展;2007年11期
2 孙玉芬;卢炎生;;流数据挖掘综述[J];计算机科学;2007年01期
3 杨怡玲,管旭东,尤晋元;基于页面内容和站点结构的页面聚类挖掘算法[J];软件学报;2002年03期
4 王伟平;李建中;张冬冬;郭龙江;;一种有效的挖掘数据流近似频繁项算法[J];软件学报;2007年04期
【共引文献】
中国期刊全文数据库 前10条
1 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期
2 马帅,唐世渭,杨冬青,王腾蛟,高军;移动环境中的最大移动序列模式挖掘(英文)[J];北京大学学报(自然科学版);2004年03期
3 张品;蒲菊华;刘永利;熊璋;;适用于连续数值标签的兴趣漂移增量学习方法[J];北京航空航天大学学报;2009年09期
4 王金栋;张磊;丁秋林;黄添强;;基于立体重叠网络的网管模型[J];吉林大学学报(信息科学版);2006年01期
5 王立锟;王君;;流数据聚类中多属性的计算[J];重庆工学院学报(自然科学版);2009年06期
6 查志琴;;基于行模式的网页信息提取算法[J];常州工学院学报;2007年04期
7 高波;;一种面向主题的搜索引擎的实现[J];常州工学院学报;2008年02期
8 黄金;;基于频繁模式的蛋白质序列分类[J];东北农业大学学报;2008年05期
9 武珊珊;谷峪;岳德君;于戈;;一种数据流上基于截止期的多查询过载预测模型[J];东北大学学报(自然科学版);2007年07期
10 谷峪;李晓静;许嘉;于戈;;支持复杂语义的数据流滑动窗口连接建模和查询优化[J];东北大学学报(自然科学版);2008年11期
中国重要会议论文全文数据库 前10条
1 姚伟力;王锡禄;宋俊德;;基于序列模式挖掘的告警相关性分析算法[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
2 黄琼;石雄;;基于CVFDT入侵检测技术的研究[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 潘瑾;严勇;王晨;方晨;汪卫;施伯乐;;Chopper:一个高效的有序标号树频繁结构的挖掘算法[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
4 吴先荣;杨冬青;唐世渭;王腾蛟;;基于序列树的告警相关性分析[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 尹婷;李红燕;;窗口模型下数据流查询流水化执行的研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 吕静;陈未如;刘俊;Osei Adjei;;并发分支模式挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 吴铁峰;彭宏;张东娜;;一种网络告警的增量挖掘算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 苏东;宋宝燕;杨兴华;欧征宇;于亚新;于戈;;基于滑动窗口语义的聚集计算方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 武珊珊;宋宝燕;袁锋;于亚新;于戈;;数据流模型研究[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 朱永泰;王晨;洪铭胜;汪卫;施伯乐;;ESPM——频繁子树挖掘算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 冯光升;面向认知网络的自适应QoS感知与配置方法[D];哈尔滨工程大学;2009年
2 张寅;个性化技术及其在数字图书馆中应用的研究[D];浙江大学;2009年
3 杨雪榕;卫星跟飞编队控制问题研究[D];国防科学技术大学;2010年
4 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年
5 叶红云;面向金融营销问题的个性化推荐方法研究[D];合肥工业大学;2011年
6 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
7 朱辉生;基于情节规则匹配的数据流预测研究[D];复旦大学;2011年
8 林冠洲;网络流量识别关键技术研究[D];北京邮电大学;2011年
9 朱达;基于事件的服务协同及通信服务提供技术研究[D];北京邮电大学;2011年
10 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 张书春;数据挖掘技术在SMS系统中的应用研究[D];郑州大学;2010年
2 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
3 何莹杰;个性化图书信息服务技术研究[D];哈尔滨工程大学;2010年
4 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
5 韩君;近期数据流频繁项集挖掘[D];大连理工大学;2010年
6 卢晓伟;基于GPU的数据流处理方法研究[D];大连理工大学;2010年
7 刘畅;基于概要的数据流管理系统的研究与实现[D];大连理工大学;2010年
8 任芳;时间序列数据挖掘研究[D];辽宁师范大学;2010年
9 陈晶;基于序列模式挖掘算法的入侵检测研究[D];华东师范大学;2011年
10 葛苗苗;基于校园网的网络用户行为分析研究[D];南京财经大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 蔡少华,翟战强;GIS基础空间关系分析[J];测绘工程;1999年02期
2 魏飞;;基于跳预约多址接入的认知无线电MAC协议[J];电力系统通信;2007年06期
3 胡文瑜;孙志挥;张柏礼;;分布式数据挖掘中的最优K相异性取样技术[J];东南大学学报(自然科学版);2008年03期
4 王毅;高翔;方世良;郭延芬;;Aloha-LPD:一种用于水声通信网的MAC协议[J];东南大学学报(自然科学版);2009年01期
5 冯红伟;李战怀;张保稳;;时间序列的模糊匹配方法[J];计算机科学;2002年04期
6 吴学雁;黄道平;莫赞;;基于极值点特征的时间序列相似性查询方法[J];计算机应用研究;2010年06期
7 王树会;;云南烟区主要植烟土壤环境质量调查与评价[J];农业环境科学学报;2006年S2期
8 胡雪琼;黄中艳;朱勇;王树会;邓云龙;;云南烤烟气候类型及其适宜性研究[J];南京气象学院学报;2006年04期
9 魏莉;许芳;孙海信;;水声信道的研究与仿真[J];声学技术;2008年01期
10 刘利松;闫光辉;黄宬;杨霞霞;;时间序列的快速相似性搜索改进算法[J];太原科技;2010年03期
中国博士学位论文全文数据库 前5条
1 丁虹;空间相似性理论与计算模型的研究[D];武汉大学;2004年
2 李卫民;流数据查询算法若干关键技术研究[D];东华大学;2008年
3 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
4 马伟;认知无线电频谱检测技术研究[D];北京邮电大学;2010年
5 石磊;认知无线电中空闲频谱检测技术的研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 张俊;基于VQ和DTW相结合的语音识别算法研究[D];武汉理工大学;2007年
2 王君伟;基于DTW的红外自动乘客计数方法研究[D];上海交通大学;2008年
3 张国恒;OFDM水声通信系统中同步技术研究[D];哈尔滨工程大学;2008年
4 李永健;基于DTW和HMM的语音识别算法仿真及软件设计[D];哈尔滨工程大学;2009年
5 魏莉;OFDM水声通信系统FPGA实现初探及多普勒频移补偿研究[D];厦门大学;2008年
6 郑凯;数据流上的相似性查询及优化[D];复旦大学;2009年
7 乔夏君;认知无线电系统的物理层频谱检测算法研究[D];北京交通大学;2009年
8 崔凯峰;扩频通信匹配滤波Rake接收系统分析[D];北京邮电大学;2009年
9 刘子琦;认知无线电网络中频谱检测算法的研究[D];北京邮电大学;2009年
10 王熹;基于OFDM的高速水声通信系统研究[D];燕山大学;2010年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 陈洁丽;多普勒频移环境下的水声信号检测[D];华南理工大学;2012年
【二级参考文献】
中国期刊全文数据库 前3条
1 杨宜东,孙志挥,张净;基于核密度估计的分布数据流离群点检测[J];计算机研究与发展;2005年09期
2 钱江波;徐宏炳;董逸生;王永利;刘学军;杨雪梅;;基于最小生成树的数据流窗口连接优化算法[J];计算机研究与发展;2007年06期
3 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期
【相似文献】
中国期刊全文数据库 前10条
1 邝祝芳;阳国贵;辛动军;;SWFPM:一种有效的数据流频繁项挖掘算法[J];计算机应用研究;2009年02期
2 琚春华;陈之奇;;一种挖掘概念漂移数据流的模糊积分集成分类方法[J];山东大学学报(工学版);2011年04期
3 赵传申;孙志挥;;半结构化文档数据流的快速频繁模式挖掘[J];东南大学学报(自然科学版);2006年03期
4 骆盈盈;陈川;毛云芳;;基于传感器网络的K-均值聚类算法研究[J];计算机工程与设计;2007年06期
5 程转流;胡为成;;数据流频繁模式挖掘技术研究[J];铜陵学院学报;2007年05期
6 苏亮;邹鹏;贾焰;;数据流上自适应的稀疏Skyline挖掘[J];自动化学报;2008年03期
7 王磊;黄志球;朱小栋;沈国华;程亮;;数据流中基于矩阵的频繁项集挖掘[J];计算机科学与探索;2008年03期
8 刘春;郑征;蔡开元;张师超;;数据流频繁闭集的在线挖掘[J];北京航空航天大学学报;2008年08期
9 屠莉;陈崚;邹凌君;;数据流的网格密度聚类算法[J];小型微型计算机系统;2009年07期
10 侯伟;吴晨生;杨炳儒;方炜炜;;一种高效的离线数据流频繁模式挖掘算法[J];计算机科学;2009年07期
中国重要会议论文全文数据库 前10条
1 邝祝芳;谭骏珊;杨卫民;辛动军;;基于渐增最小支持度函数的数据流频繁项挖掘[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
2 赵哲;孙婷;陈立军;崔斌;;一种数据流上的快速分段算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
3 蔡致远;魏藜;钱卫宁;周傲英;;DEODS:快速准确的数据流密度估计[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 丁健;李建中;李金宝;高宏;;数据流上的并行决策树构成算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
5 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
6 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
7 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
8 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
9 李康宁;樊小泊;陈红;;一种数据流滑动窗口范围连接上基于局部特征的查询索引[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
10 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
中国重要报纸全文数据库 前10条
1 陈军;承钢信息化水平再上新台阶[N];现代物流报;2007年
2 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
3 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
4 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
5 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
6 张立明;数据挖掘之道[N];网络世界;2003年
7 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
8 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
9 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
10 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 郭建奎;数据流相似性查询及模式挖掘研究[D];复旦大学;2008年
2 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
3 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
4 闫秋艳;煤矿概率流数据挖掘方法研究[D];中国矿业大学;2010年
5 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
6 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
7 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
8 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
9 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
10 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
2 车辚辚;基于数据挖掘的电能质量扰动检测与识别技术研究[D];华北电力大学(河北);2008年
3 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
4 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
5 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
6 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
7 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
8 王浩;数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究[D];华东理工大学;2012年
9 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
10 张煜辉;数据挖掘和SPC在生产过程质量控制中应用研究[D];上海交通大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026