收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

流数据的频繁项挖掘及聚类的关键技术研究

屠莉  
【摘要】:随着信息技术的快速发展,流式数据以不同方式出现在了众多领域的应用之中。包括网络流量的监测、金融应用、通信数据管理、网络安全监控、传感器网络等等。在这些应用中,对新型的流数据形式以及相关技术进行研究显得非常重要。因此,数据流上的数据挖掘成为当前数据挖掘领域的研究热点。 当前对于数据流上的挖掘主要集中在:频繁项(集)挖掘、聚类分析、分类、异常分析等。本文分析了当前国内外各种流数据挖掘算法,针对数据流上的频繁项挖掘、单条及多条数据流上的聚类分析中存在的问题,提出了更为有效的算法。本论文的主要贡献如下: (1)现有大多数的数据流频繁项挖掘算法并没有足够强调当前数据的重要性。滑动窗是一种对最近一段时间内的数据进行挖掘的有效技术。因此,我们提出了一种基于滑动窗的流数据频繁项挖掘算法。该算法采用了链表队列策略得以大大简化算法,从而提高了挖掘的效率。对于给定的阈值S、误差ε和窗口长度n,算法可在εn的误差内检测窗内频度超过Sn的数据流频繁项,且其复杂度为O(ε~(-1)),处理和查询每个数据项的时间均为O(1)。在此基础上,我们还将该算法进行了扩展,通过参数的变化得到不同的流数据频繁项挖掘算法,使得算法在时间和空间复杂度之间可以进行调节。通过大量的实验证明,本文算法比其它类似算法具有更好的精度及时空效率。 (2)通过强调近期数据而弱化“旧”数据重要性的时间衰减模型,提出了流数据频繁项挖掘算法FC1及其改进的算法FC2来检测数据流上ε-近似频繁项。FC2算法的空间复杂度为O(ε~( -1)),每个数据项的处理时间为O(1)。通过大量的实验证明,FC2比其他类似方法有较高的正确率,较快的处理速度以及较少的内存需求。接着,提出了一种更加简洁快速的挖掘数据流频繁项的λ-Count算法。算法可以在O( logλε)空间复杂度下,检测ε-近似频繁项,对每个数据项的处理时间为O(1)。通过大量的实验证明,λ-Count在正确率、内存要求和处理速度上都优于其他类似方法。 (3)大多数现存的实时流数据上的聚类算法如CluStream等,都是基于k-means算法的。这些算法在挖掘任意形状的聚类以及处理孤立点问题上都存在难度,而且这些算法需要先验知识来确定聚类的个数k以及用户定义的时间窗口长度。为了解决这些问题,我们提出了一种基于密度的流数据聚类算法框架D-Stream,并相继提出了基于此框架的算法DS0和引入吸引度策略的算法DS1。通过探索衰减系数、吸引度、数据密度以及聚类结构之间的潜在联系,算法可以有效地生成聚类并进行实时调整,探测并移除那些由孤立点映射的奇异单元格来动态地提高系统的空间和时间效率。实验结果证明,算法具有较高的质量和效率,可以准确地反映实时数据流的进化过程。 (4)多数据流聚类的研究通常都是利用欧几里德距离来衡量数据流间的相似性。而欧几里德距离具有很大的局限性,它忽略了数据流的变化趋势和序列模式。而对用户来说,这些信息往往更加重要。为此,我们提出基于Kendall相关系数的多数据流聚类算法。该算法利用AU统计量将多数据流的原始数据快速压缩成一个统计概要。根据这些统计概要可增量式地计算Kendall相关系数来衡量数据间的相似度。我们还提出了一种动态的k-means算法来生成聚类结果。动态的k-means算法可动态、实时地调整聚类数目,及时检测数据流的发展变化。算法被应用到按照用户要求的聚类问题(COD),使用户可在任意时间区间上查询聚类结果。通过一种合理的时间片断划分机制,可使用户指定的任意时间区间都可以由这些时间片断组合而成。实验结果证明,算法比其他类似方法具有更好的聚类质量、速度和稳定性,能实时地反映数据流的变化。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘芝怡;尹飞鸿;;基于FP-矩阵的频繁项集挖掘算法[J];中国制造业信息化;2011年15期
2 苏勇;郑昭华;范玉玲;;数据流中的频繁项集挖掘[J];信息技术;2011年06期
3 范黎林;林卫;;矩阵约束下的频繁项集挖掘方法研究[J];计算机工程与应用;2011年21期
4 刘海蓉;闫仁武;;一种改进的加权关联规则挖掘算法[J];现代电子技术;2011年12期
5 黄名选;马瑞兴;兰慧红;;面向查询扩展的特征词频繁项集挖掘算法[J];现代图书情报技术;2011年04期
6 宋威;刘文博;李晋宏;;基于动态裁剪频繁模式树的频繁项集并发挖掘算法[J];山东大学学报(工学版);2011年04期
7 张浩;景凤宣;谢晓尧;;基于数据挖掘关联规则Apriori改进算法的入侵检测系统的研究[J];贵州师范大学学报(自然科学版);2011年03期
8 刘上力;杨清;;基于兴趣度剪枝的Apriori优化算法[J];郑州轻工业学院学报(自然科学版);2011年04期
9 朱燕燕;;一种改进的Apriori算法的研究[J];科技信息;2011年15期
10 崔建;李强;王国师;;一种针对大型事务数据库的关联规则挖掘算法[J];空军雷达学院学报;2011年03期
11 程小辉;肖富元;饶建辉;李泽球;;基于局域网的自适应修复的高可用数据流处理[J];计算机工程与设计;2011年07期
12 苏勇;范玉玲;;可变滑动窗口在数据流频繁模式挖掘上的应用[J];计算机系统应用;2011年06期
13 张文煜;周满元;;数据流中一种基于滑动窗口的前K个频繁项集挖掘算法[J];计算机应用研究;2011年07期
14 戎翔;李玲娟;;基于MapReduce的频繁项集挖掘方法[J];西安邮电学院学报;2011年04期
15 蔡红;陈荣耀;陈波;;关联规则挖掘最小支持度阀值设定的优化算法研究[J];微型电脑应用;2011年06期
16 杜琳;陈云亮;朱静;;一种新的在图像关联规则挖掘中产生频繁项集的方法[J];微电子学与计算机;2011年07期
17 沙贝贝;谢丽聪;;一种基于频繁项集的搜索引擎聚类浏览算法[J];广西师范大学学报(自然科学版);2011年02期
18 赵明茹;郭键;孙媛;;基于线性链表存储结构的Apriori改进算法[J];科学技术与工程;2011年23期
19 刘上力;杨清;;基于改进FP树的项项正相关关联规则挖掘[J];计算机工程与科学;2011年07期
20 夏英;张俊;王国胤;;时空关联规则挖掘算法及其在ITS中的应用[J];计算机科学;2011年09期
中国重要会议论文全文数据库 前10条
1 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 杨晓明;王晨;汪卫;张守志;施伯乐;;频繁项集的精简表达与还原问题研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 魏永超;陈立军;;数据流上复杂事件处理系统Eagle的设计与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
4 刘马金;王鹏;汪卫;;一种轮转的数据流频繁项挖掘算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 蔡致远;熊方;钱卫宁;周傲英;;核合并分析及其在数据流密度估计上的应用[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
6 谢志军;陈红;;EFIM——数据流上频繁项集挖掘的高性能算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
7 李坤;王永炎;王宏安;;一种基于乐观裁剪策略的挖掘数据流滑动窗口上闭合频繁项集的算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
8 邹远娅;周皓峰;王晨;汪卫;施伯乐;;FSC——利用频繁项集挖掘估算视图大小[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 尹婷;李红燕;;窗口模型下数据流查询流水化执行的研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 宋宝燕;陆岩;张俊宁;;数据流上的一种适应性查询优化及调度策略[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
中国博士学位论文全文数据库 前10条
1 郭立超;数据流挖掘若干技术研究及其在电信行业的应用[D];浙江大学;2011年
2 毛伊敏;数据流频繁模式挖掘关键算法及其应用研究[D];中南大学;2011年
3 屠莉;流数据的频繁项挖掘及聚类的关键技术研究[D];南京航空航天大学;2009年
4 由育阳;数据流容错挖掘算法研究[D];哈尔滨工程大学;2011年
5 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
6 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
7 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
8 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
9 李军;基于用户行为挖掘的数据流管理技术研究[D];北京邮电大学;2012年
10 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 王立波;基于滑动窗口的数据流频繁模式挖掘算法研究[D];燕山大学;2010年
2 李辉;数据流上的频繁项集挖掘算法研究[D];北京交通大学;2007年
3 詹海鹏;数据流频繁项集挖掘系统的研究[D];武汉理工大学;2011年
4 何艳珊;并行化频繁项集挖掘及其在数据流中的研究[D];兰州大学;2010年
5 陈力捷;数据流频繁项挖掘系统的研究和实现[D];浙江大学;2007年
6 徐艳红;基于倾斜时间窗口的频繁项集挖掘算法研究[D];哈尔滨工程大学;2010年
7 刘立新;数据流频繁模式挖掘算法研究[D];中南大学;2010年
8 陈鹏;数据流关联规则挖掘研究及其应用[D];浙江大学;2011年
9 何辉玲;数据流中基于优化的FP-tree的频繁模式挖掘方法研究[D];燕山大学;2010年
10 郝广浩;面向数据流的关联规则挖掘精确度研究[D];山东大学;2011年
中国重要报纸全文数据库 前9条
1 计算机世界实验室 吴挺;Intel的专业“核动力”[N];计算机世界;2007年
2 北京 冬梅;P4时代真的来了吗[N];中国电脑教育报;2001年
3 ;立体防护“中枢神经系统”[N];网络世界;2003年
4 ;NetScreen-IDP 500 高端入侵检测与防护设备[N];计算机世界;2003年
5 甘久斌;如何有效管理宽带用户[N];通信产业报;2002年
6 ;港湾网络多业务万兆城域网解决方案[N];人民邮电;2003年
7 李勇;降低投资70%[N];中国计算机报;2003年
8 记者 郭姜宁;企业级电子商务资金流网络管理系统问世[N];科技日报;2001年
9 ;在移动互联网里推广IPv6[N];人民邮电;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978