收藏本站
《复旦大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于遗忘特性的数据流概要结构及其应用研究

陈华辉  
【摘要】: 随着计算机网络和各类电子设备应用的越来越广泛,越来越多的数据以连续的流的形式出现,如网络路由信息,传感器网络采集的实时信号,证券交易、信用卡交易、商场购物交易等的实时记录,因特网网站点击流,电信网络的电话呼叫业务记录,聊天室、短信等的实时文本流等,均产生连续不断的各类数据。这些数据被称为流数据或数据流。因为数据流和传统数据库等系统中处理的数据的巨大差别,迫使研究人员对数据流模型和处理方法进行深入研究。 数据流处理的关键是应用单趟数据扫描算法,建立流数据的概要结构,以便随时能根据该结构提供数据流的近似处理结果。数据遗忘是数据流的一种重要特性,在数据流概要结构构造中应充分考虑这种遗忘特性。本文工作利用这种遗忘特性,提出了一种基于数据流遗忘特性的概要结构的框架,称为分层遗忘概要(Hierarchical AmnesicSynopses,简称HAS)。应用HAS结构,可将原来不考虑遗忘特性的概要结构构造方法改造为结合了数据流遗忘特性的方法。本文工作将HAS结构应用于直方图、抽样、小波、sketch、随机投影等主要的数据流概要结构中,并给出了几个典型应用。 本文主要贡献包括: (1)提出了一种数据流概要结构的通用框架,HAS结构。该框架嵌入了数据流的遗忘特性,并且具有遗忘速度和重构误差控制的能力。利用该框架,可将现有的多种典型数据流概要结构改造成具有数据流遗忘特性处理能力。 (2)实现了基于小波数据压缩的HAS结构(W-HAS),提出了小波概要的归并方法,并讨论了在基于误差平方和(sse)和基于最大绝对误差(max_abs)两种误差度量标准下的W-HAS,以及如何进行W-HAS中的重构误差控制的方法。 (3)讨论了基于加权随机抽样的HAS结构(WS-HAS),分别对有放回和无放回加权随机抽样设计了WS-HAS概要结构的维护算法。 (4)提出了结合HAS结构和直方图数据压缩方法的H-HAS结构,讨论了等宽直方图下的H-HAS结构的实现,用动态规划方法实现了最优直方图下的H-HAS结构。 (5)基于数据流的W-HAS结构,讨论了数据流之间的近似距离和聚类中心的计算,并进而提出了适合并行多数据流的K-means聚类方法:W-HAS-clustering。同时,利用数据流的遗忘特性,应用随机投影,构造了基于随机投影的数据流分层概要结构RP-HAS,并设计了规范化后数据流的RP-HAS结构维护的方法。提出了基于RP-HAS结构的适合并行多数据流的聚类方法RP-HAS-clustering。 (6)讨论了高维数据流中HAS结构的实现,并将其应用到数据流的分类和聚类中。 (7)提出了一种基于sketch的数据流概要结构EFM sketch,并用EFM sketch来估算集合的相似度。在HAS结构的基础上,应用EFM sketch分析数据流上数据的相似度和演化。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前7条
1 刘兵;汪卫;施伯乐;;基于小波变换的序列间距离严格估算[J];计算机研究与发展;2006年10期
2 周晓云;孙志挥;张柏礼;杨宜东;;高维数据流聚类及其演化分析研究[J];计算机研究与发展;2006年11期
3 陈安龙;唐常杰;元昌安;朱明放;段磊;;基于小波和偶合特征的多数据流压缩算法[J];软件学报;2007年02期
4 王伟平;李建中;张冬冬;郭龙江;;一种有效的挖掘数据流近似频繁项算法[J];软件学报;2007年04期
5 常建龙;曹锋;周傲英+;;基于滑动窗口的进化数据流聚类[J];软件学报;2007年04期
6 周晓云;孙志挥;张柏礼;杨宜东;;高维类别属性数据流离群点快速检测算法[J];软件学报;2007年04期
7 倪巍伟;陆介平;陈耿;孙志挥;;基于k均值分区的流数据高效密度聚类算法[J];小型微型计算机系统;2007年01期
【共引文献】
中国期刊全文数据库 前10条
1 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
2 管翠萍;;药物靶标G蛋白偶联受体的识别预测[J];安徽农业科学;2010年24期
3 刘婷婷;;基于支持向量机的水稻纹枯病识别研究[J];安徽农业科学;2011年28期
4 高闯;王立东;周世宇;;基于支持矢量机的宫颈细胞分类[J];辽宁科技大学学报;2009年03期
5 汪廷华;田盛丰;黄厚宽;廖年冬;;样本属性重要度的支持向量机方法[J];北京交通大学学报;2007年05期
6 尚磊;刘风进;;基于支持向量机的手写体数字识别[J];兵工自动化;2007年03期
7 高明霞;姚文集;毛国君;;XML数据流中面向聚类的指数直方图[J];北京工业大学学报;2011年08期
8 胡淑燕;郑钢铁;;应用支持向量机的眼睑参数疲劳预测[J];北京航空航天大学学报;2009年08期
9 王自强;段爱玲;张德贤;;基于自适应核函数的支持向量数据描述算法[J];北京化工大学学报(自然科学版);2008年02期
10 陈增照;杨扬;董才林;何秀玲;;支持向量机动态学习方法及其在票据识别中的应用[J];北京科技大学学报;2006年02期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
5 蒋少华;桂卫华;阳春华;唐朝晖;蒋朝辉;;基于主元分析与支持向量机的方法及其在密闭鼓风炉过程监控诊断中的应用[A];第二十七届中国控制会议论文集[C];2008年
6 王海丰;李壮;任洪娥;赵鹏;;基于非下采样Contourlet变换和SVM的纹理图像分割算法[A];第二十九届中国控制会议论文集[C];2010年
7 ;Image Classification with Ant Colony Based Support Vector Machine[A];中国自动化学会控制理论专业委员会A卷[C];2011年
8 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
9 刘英林;刘洪鹏;査星云;宋扬;;基于SVM的热轧钢卷性能分析[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
10 戴明洋;杨大利;徐明星;;语音情感识别中UBM训练集的组成研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 冯光升;面向认知网络的自适应QoS感知与配置方法[D];哈尔滨工程大学;2009年
4 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
5 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
6 倪丽萍;基于分形技术的金融数据分析方法研究[D];合肥工业大学;2010年
7 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
8 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
9 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
10 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 汤雪;时间序列线性表示方法及其相似性度量算法研究[D];山东科技大学;2010年
4 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
5 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
6 刘松;基于OCSVM和主动学习的DDOS攻击分布式检测系统[D];郑州大学;2010年
7 徐一凤;隐私保护聚类挖掘方法的研究[D];哈尔滨工程大学;2010年
8 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
9 骆永健;基于聚类的数据流异常检测算法的研究[D];哈尔滨工程大学;2010年
10 赵晓燕;基于多索引的高维时间序列子序列检索研究[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前8条
1 李存华,孙志挥;GridOF:面向大规模数据集的高效离群点检测算法[J];计算机研究与发展;2003年11期
2 张海勤,蔡庆生;基于小波变换的时间序列相似模式匹配[J];计算机学报;2003年03期
3 魏藜,宫学庆,钱卫宁,周傲英;高维空间中的离群点发现[J];软件学报;2002年02期
4 汪雪林,韩华,彭思龙;基于小波域局部高斯模型的图像复原[J];软件学报;2004年03期
5 赵慧,侯建荣,施伯乐;随机非平稳时间序列数据的相似性研究(英文)[J];软件学报;2004年05期
6 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期
7 朱蔚恒;印鉴;谢益煌;;基于数据流的任意形状聚类算法[J];软件学报;2006年03期
8 郑诚,欧阳为民,蔡庆生;一种有效的的时间序列维数约简方法[J];小型微型计算机系统;2002年11期
【相似文献】
中国期刊全文数据库 前10条
1 吕铁军;肖先赐;;基于调制信号细节特征的证据识别[J];电子对抗;2000年05期
2 郭承志;数字图像小波变换的两种方法比较[J];青海大学学报(自然科学版);2004年06期
3 李昕,罗中良;基于小波分解的图象边缘检测方法[J];西安航空技术高等专科学校学报;2005年03期
4 程思宁;武丹丹;张俊芬;史东承;;基于小波分析的人脸识别算法[J];长春工业大学学报(自然科学版);2006年01期
5 陈晓梅;黄宏涛;;基于小波分解的车辆视频检测算法[J];华东交通大学学报;2006年02期
6 朱亚平;沈庭芝;;基于小波域改进HMT模型的图像恢复算法[J];激光与红外;2006年09期
7 王雪;;小波变换奇异点传递特性及应用[J];现代电子技术;2007年07期
8 龚文安;鲁五一;;一种基于小波域的自适应性嵌入的水印[J];湖南广播电视大学学报;2007年02期
9 顾耀林;杨一山;;一种基于多分辨率下小波变换的体数据场表示法[J];微电子学与计算机;2007年06期
10 袁秀娟;叶会英;禹延光;;光反馈自混合干涉信号的小波去噪处理[J];微计算机信息;2008年10期
中国重要会议论文全文数据库 前10条
1 丁振宇;;基于小波的图像网络传输研究[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
2 吴渊;潘永娟;郑文庭;;参数化的表情映射[A];第一届中国情感计算及智能交互学术会议论文集[C];2003年
3 闫佩君;陈亮;;基于小波高频分形维数的语音隐藏方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 付立;符天保;李传应;;小波降噪技术在核爆探测中的应用初探[A];全国第五届核仪器及其应用学术会议论文集[C];2005年
5 王正林;孙一康;童朝南;王为人;彭开香;李伯群;;基于多分辨分析的热连轧硬度前馈自动厚度控制[A];2005中国控制与决策学术年会论文集(下)[C];2005年
6 朴元斯;袁运能;;基于小波域隐马尔可夫模型的无监督遥感图像分割[A];全国第十届信号与信息处理、第四届DSP应用技术联合学术会议论文集[C];2006年
7 余丹丹;张韧;肖天贵;张军;王举;李研;;自适应神经模糊推理与小波分解重构相结合的Nio-3区海温预测[A];中国灾害防御协会风险分析专业委员会第二届年会论文集(二)[C];2006年
8 刘辉;孔祥东;单东升;刘娟;;基于轧制过程数据的厚差分析[A];第五届全国流体传动与控制学术会议暨2008年中国航空学会液压与气动学术会议论文集[C];2008年
9 余丹丹;张韧;;西太平洋副高对近赤道海温响应的时间尺度和周期信号[A];推进气象科技创新加快气象事业发展——中国气象学会2004年年会论文集(下册)[C];2004年
10 薄玉玲;高德章;唐建;;东海某地区中新生代地层展布与含油气远景预测[A];第五次东海石油地质研讨会论文集[C];2004年
中国重要报纸全文数据库 前3条
1 北京浩瑞恒业科技发展有限公司;系统分析与设计技术(三)[N];电脑商报;2003年
2 甲骨文Java XML小组 郭平等;三种XML解析术你选谁?[N];计算机世界;2004年
3 远德亮;运行维护绩效全过程实时管理[N];国家电网报;2008年
中国博士学位论文全文数据库 前10条
1 陈华辉;基于遗忘特性的数据流概要结构及其应用研究[D];复旦大学;2008年
2 金澈清;数据流上若干查询处理算法的研究[D];复旦大学;2005年
3 李立轻;基于计算机视觉的织物疵点自动检测研究[D];东华大学;2003年
4 王勇;WEB数据挖掘研究[D];西北工业大学;2006年
5 闫莺;多数据类型的数据流查询处理及优化[D];复旦大学;2008年
6 周黔;高性能数据流模式发现算法及其应用研究[D];浙江大学;2008年
7 赵敏;基于混沌理论的电力推进船舶电力负荷预测[D];大连海事大学;2008年
8 徐小红;图像信息的基函数表示方法研究[D];合肥工业大学;2009年
9 张晨;数据流聚类分析与异常检测算法[D];复旦大学;2009年
10 刘卓夫;基于图像内容的水下目标识别技术研究[D];哈尔滨工程大学;2004年
中国硕士学位论文全文数据库 前10条
1 吕中亮;基于小波分解的宽带、非稳态信号激励下的结构响应计算[D];重庆大学;2010年
2 张雯;基于形态学与不完全树形小波分解的藻类图像纹理识别算法的研究[D];中国海洋大学;2011年
3 车娟;基于4位MCU的通用计算器芯片数学运算系统的研究与实现[D];暨南大学;2004年
4 吴冬夏;基于小波分解和颜色信息熵的浮游生物图像识别技术研究[D];电子科技大学;2010年
5 陈飞波;基于最窄平行四边形的数据流突变检测算法[D];复旦大学;2008年
6 姜磊;基于小波分解和模糊聚类的MRI图像去噪以及分割算法研究[D];中国科学院研究生院(电工研究所);2004年
7 王尤慧;Online-HHT方法在时间序列数据流预测中的应用研究[D];大连理工大学;2009年
8 田丰民;基于小波分解的无线传感器网络动态功率管理[D];西南交通大学;2005年
9 隋海洋;基于不同能谱的射线图像融合技术研究[D];中北大学;2006年
10 王超;数据流离群数据挖掘的研究与应用[D];合肥工业大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026