收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

数据流频繁项挖掘与聚类分析的研究

王述云  
【摘要】: 随着科学技术的高速发展和信息技术的广泛应用引发了一类新型应用,包括计算机网络流量控制、网络安全监控、金融应用、环境监测和日志分析等。在这些新型的应用中,数据以流的形式产生,它实时、持续、有序地到达。这种由一系列连续且有序的数据组成的序列被称为数据流。与传统数据库不同,数据流具有如下特点:无限性;不可再现性;数据到达速率极快;数据的到达次序不受应用约束。分析和挖掘数据流已成为热点研究问题。 数据流挖掘即在流式数据上提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据流挖掘主要是通过挖掘频繁项(集)、分类分析、聚类分析、异常分析等知识发现活动,以寻找数据流中的关联规则、分类规则、聚类模式、异常模式等类型的知识。如挖掘数据流中的频繁项可应用于基于流量的网络计费、网络交通阻塞控制、网络安全监控等。对数据流进行聚类分析可应用于监测网络入侵、在线新闻组过滤、话题识别与跟踪、对交通拥塞与地理环境等进行实时监控、对大型公司中不同顾客群进行划分、检测金融欺诈等。 由于存储空间的有限性与数据流的无限性,使得存储数据流中的全部数据以提供精确的挖掘结果是不实际的。因此,在数据流处理模型中,数据流处理算法只存储数据流的概要信息,并随着流中数据不断到来,不断更新流概要,同时根据用户的查询要求,利用所维护的数据流概要信息,为用户提供近似的查询结果。 由于频繁项挖掘与聚类分析在网络数据流分析中有着重要的应用,我们主要进行数据流环境下的频繁项挖掘与聚类分析方法的研究。在网络数据流及大量的其它应用领域中,数据类型多种多样,它们不仅包括数值型数据,而且包括非数值型数据,且这些数据经常会有几十甚至几百个属性,使得研究混合属性数据流的聚类及高维属性数据流聚类均具有重要的理论价值与实际意义。以生物系统的机理为基础设计算法和系统是近代研究的热点,并已取得了瞩目成效。而人工免疫系统(AIS)结合了分类器、神经网络和机器推理等系统的一些优点,具有提供新颖的问题解决方法的潜力。同时AIS在数据流聚类中也已有了初步研究,本文针对现有基于AIS的数据流聚类存在的不足,研究新的基于AIS的数据流聚类算法。本文的研究内容和创新工作可概括为以下四个方面。 (1)数据流频繁项挖掘算法的研究 本文在Bloom Filter的基础上,提出空间效率高、可支持表达庞大数据集及较高查找效率的数据结构—可扩展Bloom Filter,并基于该数据结构提出基于界标窗口模型的数据流频繁项挖掘算法(FI-ESBFL),同时通过理论证明只需比同类算法中更少的计数器数目即可达到相同的精度与置信度要求。FI-ESBFL可以根据数据流中数据的不同分布及不同的数据项的多少动态调整所使用的内存空间,从而大大减少了内存空间的浪费。实验证明FI-ESBFL具有更高的空间效率与较高的时间效率。本文在FI-EBFSL的基础上还提出了基于衰减窗口模型的数据流频繁项挖掘算法—FI-ESBFD及基于滑动窗口模型的数据流频繁项挖掘算法—FIS-EBFS。FIS-EBFSD具有在一般情况下比同类算法有更高的时间与空间效率。FIS-EBFS具有高效的时间性能。 (2)混合属性数据流聚类分析算法的研究 本文提出两种不同的基于熵的混合属性数据对象间相似性度量,并在此基础上提出两类混合属性数据流聚类算法——CNCE-Stream与CNCDE-Stream。其中CNCDE-Stream同时利用欧式距离与熵来定义混合属性数据对象间的相似性。在算法CNCE-Stream中,利用单一的量——熵度量混合属性数据对象间的相似性,提出数据流环境下概率密度函数的估计方法—S核方法和带混合属性的类的期望熵计算方法。实验结果表明,CNCDE-Stream与CNCE-Stream均具有较高的聚类质量,且CNCDE-Stream具有很高的时间效率。 (3)高维数据流子空间聚类分析算法的研究 针对大部分现有的数据流聚类算法只适合于待聚类的数据含有的维度较低的情况及现有数据流子空间聚类算法的不足,本文提出基于网格与密度的高维数据流子空间聚类算法—SOStream。SOStream在线维护一个所有密集网格单元的超集,并提出延迟插入潜在密集网格单元与定期修剪非密集(稀疏)网格单元策略,提高了算法的时间与空间效率。当用户请求时,利用在线维护的密集网格单元生成最终类结构。我们通过实验证明了本算法的有效性。 (4)基于人工免疫原理的数据流聚类分析算法的研究 本文根据人工免疫系统可动态适应外部环境的变化,提出一种新的基于人工免疫网络的数据流聚类算法—AIN-Stream。AIN-Stream利用外部抗原(流数据)对B细胞的激励作用定义B细胞的激励度,并通过为B细胞创建特征向量,利用统计分析的方法自动确定基于人工免疫聚类算法的关键参数—B细胞识别区域,保证了聚类结果的稳定性。同时,AIN-Stream利用B细胞特征向量中的统计信息更有效地去除冗余B细胞,进一步提高了算法效率。在生成聚类结果时,AIN-Stream无需指定类数,可真正实现无监督聚类。实验表明,AIN-Stream能够动态适应数据流的变化,并具较高的聚类质量,且具有更高的空间效率与明显的时间效率提高。 本文提出的算法是对现有数据流上的频繁项挖掘技术与聚类分析技术的补充与改进,理论分析与实验结果表明本文算法能够较为有效地解决相应问题。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王磊;黄志球;朱小栋;沈国华;程亮;;数据流中基于事务链表组的频繁闭项集挖掘[J];计算机工程与设计;2008年08期
2 邝祝芳;阳国贵;辛动军;;SWFPM:一种有效的数据流频繁项挖掘算法[J];计算机应用研究;2009年02期
3 张月琴;;滑动窗口中数据流频繁项集挖掘方法[J];计算机工程与应用;2010年16期
4 骆盈盈;陈川;毛云芳;;基于传感器网络的关联规则挖掘算法研究[J];计算机工程与设计;2007年08期
5 徐建民;郝丽维;王煜;;数据流频繁项集的快速挖掘方法[J];计算机工程与应用;2008年34期
6 苏勇;郑昭华;范玉玲;;数据流中的频繁项集挖掘[J];信息技术;2011年06期
7 王磊;黄志球;朱小栋;沈国华;程亮;;数据流中基于矩阵的频繁项集挖掘[J];计算机科学与探索;2008年03期
8 汪金苗;张龙波;邓齐志;王凤英;王勇;;不确定数据频繁项集挖掘方法综述[J];计算机工程与应用;2011年20期
9 侯伟;杨炳儒;吴晨生;周谆;;基于周期采样的数据流频繁项集挖掘算法研究[J];高技术通讯;2009年08期
10 舒平达;陈华辉;;数据流上最近频繁项集挖掘算法[J];计算机工程与应用;2009年18期
11 王飞超;李国;倪现君;韩业红;;数据流频繁项挖掘的研究[J];中国科技信息;2010年19期
12 黄庆炬;吴珊;;基于相对支持度的关联规则和序列模式分析[J];软件导刊;2007年13期
13 陆楠;李晓林;;基于动态窗口的数据流频繁闭合模式挖掘算法[J];信息与电脑(理论版);2009年10期
14 方元康;;数据挖掘综述[J];电脑知识与技术(学术交流);2007年17期
15 潘怡;杜红燕;;数据流频繁闭项集挖掘研究[J];长沙大学学报;2010年05期
16 郭福亮;左凯伶;;关联规则挖掘中Apriori算法的一种改进[J];计算机与数字工程;2007年05期
17 王伟勤;钟敬堂;;对Apriori算法的一种改进[J];佛山科学技术学院学报(自然科学版);2007年02期
18 秦福高;孙悦娟;;聚类与关联规则挖掘进行结合的研究[J];电脑知识与技术;2011年14期
19 汤效琴,戴汝源;数据挖掘中聚类分析的技术方法[J];微计算机信息;2003年01期
20 章志明;黄龙军;余敏;黄明和;;一种动态的频繁项集挖掘算法[J];计算机工程;2006年24期
中国重要会议论文全文数据库 前10条
1 楚红涛;寒枫;张燕;王婷;;基于数据流的挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
2 于健;陈子军;李霞;李炜;;一种新的多密度聚类算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 刘马金;王鹏;汪卫;;一种轮转的数据流频繁项挖掘算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
4 田小丽;郑康锋;钮心忻;;一种基于改进K-Medoids算法的网络攻击检测技术[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
5 邝祝芳;谭骏珊;杨卫民;辛动军;;基于渐增最小支持度函数的数据流频繁项挖掘[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
6 潘玉奇;石冰;周劲;袁宁;;基于多维数据模型的聚类分析的研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
7 王静;汪晓刚;;一种新的保护原始数据隐私性的聚类算法[A];第十届中国科协年会论文集(三)[C];2008年
8 谷峪;冯智博;武珊珊;于戈;吕雁飞;;数据流上基于扩展窗口模型的连接维护算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
9 张昕;彭宏;郑启伦;;基于微粒群算法的聚类分析[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
10 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
中国博士学位论文全文数据库 前10条
1 王述云;数据流频繁项挖掘与聚类分析的研究[D];复旦大学;2008年
2 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
3 曹锋;数据流聚类分析算法[D];复旦大学;2006年
4 倪萍;流数据挖掘关键技术研究[D];北京邮电大学;2010年
5 张瑀;基于实验数据挖掘与细胞自动机的结构分析方法[D];哈尔滨工业大学;2010年
6 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
7 马海兵;频繁模式挖掘相关技术研究[D];复旦大学;2005年
8 李实;中文网络客户评论中的产品特征挖掘方法研究[D];哈尔滨工业大学;2009年
9 李广水;基于服务的森林资源调查数据挖掘系统的研究[D];南京林业大学;2010年
10 王喆;商务数据中的关联和聚类算法研究[D];吉林大学;2005年
中国硕士学位论文全文数据库 前10条
1 郭兴凯;数据流挖掘技术的研究[D];黑龙江大学;2005年
2 王天真;基于神经网络的智能数据挖掘方法及应用研究[D];上海海事大学;2003年
3 于泓漪;道路交通事故原因的聚类分析[D];吉林大学;2005年
4 侯雪波;关联规则挖掘技术在电力市场营销分析中的应用[D];天津大学;2005年
5 武兆慧;基于遗传算法的聚类方法研究[D];山东师范大学;2006年
6 张兆中;WEB文本挖掘的聚类分析[D];山东科技大学;2005年
7 陈力捷;数据流频繁项挖掘系统的研究和实现[D];浙江大学;2007年
8 刘卫;基于剪枝概念格模型的频繁项集表示及挖掘研究[D];合肥工业大学;2007年
9 唐艺军;基于蚁群算法的数据挖掘应用研究[D];辽宁工程技术大学;2007年
10 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
中国重要报纸全文数据库 前10条
1 陈军;承钢信息化水平再上新台阶[N];现代物流报;2007年
2 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
3 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
4 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
5 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
6 张立明;数据挖掘之道[N];网络世界;2003年
7 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
8 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
9 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
10 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978