收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于半结构化数据的数据流挖掘算法研究

冯博  
【摘要】:数据流作为一种重要的数据类型,广泛应用于网络流量监控、用户点击流分析、传感器网络数据处理等领域。与传统的数据类型相比,数据流具有高速性、连续性、实时性等特点。高速性和连续性要求数据流挖掘算法必须具有较高的时空效率。实时性要求挖掘结果应尽可能反映最新的变化趋势,并尽量消除历史数据对结果的影响。 同时,半结构化数据在语义网络、化学化合物分析、社会结构信息挖掘等领域有着广泛应用。基于半结构化数据的挖掘,可以有效发现关联信息,还可以作为其他半结构化数据挖掘任务的基础而发挥重要的作用。然而,半结构化数据不仅含有数据内容信息,而且含有数据之间的关系信息,使用传统的挖掘算法对其进行挖掘的难度较大。 半结构化数据广泛存在于数据流中,由于数据流和半结构化数据挖掘各自的复杂性,到目前为止,在数据流中高效挖掘半结构化数据的算法很少。本文针对这两方面的研究难点,首次基于一种重要的半结构化数据——树型数据,提出了其在数据流中频繁子树集的挖掘算法,解决了数据流挖掘的低效率问题,有较高的创新意义。本文的研究和创新工作可以分为如下四个方面: 1.提出了针对数据流挖掘实时性特点的衰减策略 实时性是数据流挖掘的基本要求,本文提出一种针对实时性特点的支持度衰减策略。该策略包括衰减机制和补偿放大机制,对历史数据支持度进行衰减,以削弱历史数据对挖掘结果的影响;同时放大新到达数据的支持度,以减少因为衰减造成的支持度信息损失,并加强新数据对结果的影响。在此基础上,进一步研究衰减和补偿放大之间的关系,进行相关的参数约束和理论分析,确保了频繁模式不会因为衰减机制而影响输出。最后,对衰减策略在真实数据流中进行验证,证明了其对数据流挖掘实时性的较大增益。 2.提出了针对数据流挖掘高效性要求的批量挖掘模型 数据流到达呈批量的特点,传统的逐条加入、整体挖掘方式不能适应数据流这种自然特性,因而造成很大的系统开销,不能满足数据流挖掘的高效性需求。本文提出了一种批量挖掘的方式,在数据流到达时对数据进行批量预处理,然后把处理结果作为中间结果,通过集合之间的运算批量添加到现有结果中。这样的方式加快了处理效率,符合数据流的特性;而且,将预处理结果代替原始数据加入当前结果,使运算量呈指数级减少。经理论分析和实验证明,采用批量挖掘模型的挖掘方法大大提高了数据流挖掘的效率。同时,该模型有较高的适应性和扩展性,可以方便地应用于多种数据流挖掘任务中。 3.提出了基于连接的静态树型结构挖掘算法CFTMiner 传统的静态树型结构数据的挖掘方法采用基于路径扩展的子树候选集生长方式,如果数据中含有较多的重复结构,算法效率很低。本文提出的CFTMiner算法以经典的DryadeParent算法为基础,采用基于连接的子树候选集生长方式,提高了重复数据的复用度;并针对DryadeParent中存在的初始化信息缺失问题,提出一种新的候选集初始化方法,消除了初始化时的信息丢失,同时避免在后续挖掘中额外的数据集扫描,减轻了系统负担,在一定程度上提高了算法的挖掘效率。实验证明,CFTMiner算法具有较高的时空效率。 4.提出了数据流中树型数据的高效挖掘算法SFCLTreeMiner 半结构化数据和数据流的挖掘两者都是当前研究的难点,目前,在数据流中进行半结构化数据挖掘的算法很少。本文结合前面提到的三个方面研究成果,提出一种在数据流中树型结构数据挖掘算法SFCLTreeMiner。该算法使用批量挖掘模型、结合时间衰减策略对快速到达的数据流进行处理;提出了一种针对树型数据的集合添加和删除的批量更新算法;针对挖掘过程中可能存在的误差进行了分析,并对正确性进行了证明。实验证明,SFCLTreeMiner使用衰减策略有效地保证了实时性,并通过批量挖掘和预处理方式,大大提高了数据流挖掘效率,同时具有较高的挖掘准确度。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李斌;数据流处理自动化和重新设计[J];管理科学文摘;1997年05期
2 吴共庆,陈恩红,王舒,王煦法;基于最右扩展枚举的半结构化数据最大模式挖掘方法研究[J];小型微型计算机系统;2004年09期
3 周宁;数字时代的数据库技术研究[J];图书情报知识;2001年04期
4 文必龙;王瑞;姚建蓬;黄俊莲;;一种Excel数据到结构化数据的转换方法[J];佳木斯大学学报(自然科学版);2006年03期
5 叶飞跃;蒙德龙;员红娟;;一种用于存储与查询半结构化数据的新方法[J];计算机工程;2006年19期
6 温华菁;陈红娟;;基于XML进行Web数据挖掘浅析[J];商场现代化;2009年04期
7 俞晨梓;;论半结构化数据的模型集成[J];电脑编程技巧与维护;2010年04期
8 丁晴;郭晨;;浅谈半结构化数据在公安信息化中的应用[J];警察技术;2010年06期
9 迟忠先,王占昌,王瑞巍,王忠;空间对象模型用于Web下数据源集成的研究[J];小型微型计算机系统;2002年10期
10 韩京宇;徐立臻;董逸生;;Web数据仓库研究综述[J];计算机科学;2004年11期
11 王晓东;江元;徐超;;XML技术在Web数据挖掘中的应用[J];中国科技信息;2008年18期
12 谢坤武;;半结构化数据的结构发现聚类算法[J];湖北民族学院学报(自然科学版);2009年03期
13 严亚兰;基于Web环境的半结构化数据模型研究[J];中国图书馆学报;2003年04期
14 宋中山,曾广平;基于XML的Web数据挖掘技术[J];中南民族大学学报(自然科学版);2005年01期
15 王宁;王延章;;一种半结构化数据采集系统的设计与实现[J];计算机应用与软件;2007年05期
16 张荣富;;XML在Web数据挖掘技术中的应用相关问题探索[J];现代经济信息;2010年02期
17 李庆华,刘昊;用待确定的上下文无关文法分析半结构化数据[J];华中理工大学学报;1999年05期
18 许斗,陈恩红;XML的半结构化数据表示方法及其在医学文档处理中的应用[J];计算机工程;2002年01期
19 王华伟;网际网上的知识获取[J];微电子学与计算机;2002年07期
20 陈滢,王能斌;半结构化数据查询的处理和优化[J];软件学报;1999年08期
中国重要会议论文全文数据库 前10条
1 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 魏永超;陈立军;;数据流上复杂事件处理系统Eagle的设计与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 蔡致远;熊方;钱卫宁;周傲英;;核合并分析及其在数据流密度估计上的应用[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
4 沈向余;李伟华;;几种关联规则挖掘算法的分析[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 曹国栋;郭景峰;;一种基于定量更新滑动窗口频繁闭项集挖掘算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
6 楚红涛;寒枫;张燕;王婷;;基于数据流的挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
7 冯迪;李晋宏;曹原;;基于网页的数据挖掘研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
8 尹婷;李红燕;;窗口模型下数据流查询流水化执行的研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 丁艳辉;王洪国;高明;谷建军;;一种基于矩阵的高效关联规则挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 王钦克;周立柱;;基于模式的半结构化数据重组[A];第十六届全国数据库学术会议论文集[C];1999年
中国博士学位论文全文数据库 前10条
1 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
2 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
3 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
4 郭立超;数据流挖掘若干技术研究及其在电信行业的应用[D];浙江大学;2011年
5 由育阳;数据流容错挖掘算法研究[D];哈尔滨工程大学;2011年
6 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
7 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
8 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
9 Mahmoud Sami Soliman;[D];中南大学;2010年
10 孙涛;面向半结构化数据的数据模型和数据挖掘方法研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 孙金山;智能移动设备中数据流挖掘算法研究[D];燕山大学;2012年
2 何登成;数据流上复杂序查询的研究与实现[D];浙江大学;2010年
3 杨溢之;基于数据流的关联规则挖掘方法的研究[D];西安科技大学;2011年
4 何江燕;基于数据流的聚类分析算法研究[D];兰州交通大学;2010年
5 吴亚娟;数据流连续查询的自适应降裁策略研究[D];大庆石油学院;2010年
6 张帆;数据流挖掘中聚类算法的研究与实现[D];北京林业大学;2012年
7 赖胜;数据流频繁闭项集挖掘算法研究[D];兰州理工大学;2011年
8 陈万松;数据流特征选择策略的研究[D];苏州大学;2011年
9 尤钢;网上银行数据流频繁模式挖掘算法研究及应用[D];浙江工商大学;2010年
10 潘国涛;数据流聚类算法研究[D];浙江工业大学;2011年
中国重要报纸全文数据库 前10条
1 郭平;动态归档助力企业内容管理[N];计算机世界;2007年
2 岑广海;建设自动化的绿色数据中心[N];计算机世界;2007年
3 计算机世界实验室 吴挺;Intel的专业“核动力”[N];计算机世界;2007年
4 ;绿色节能引领今年存储市场[N];人民邮电;2008年
5 郭平;数据归档软件HT FileStore[N];计算机世界;2006年
6 ;下一代数据库六大特点[N];中国计算机报;2005年
7 李国辉 张军 汤义;挖掘技术直面多媒体[N];计算机世界;2002年
8 郭涛;存储是一种服务[N];中国计算机报;2007年
9 于翔;数据治理走到台前[N];网络世界;2007年
10 中国传媒大学计算机学院 朱立谷柳昊 孙志伟 郅斌;非结构化数据的归档术[N];中国计算机报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978