收藏本站
《复旦大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

数据流频繁项挖掘与聚类分析的研究

王述云  
【摘要】: 随着科学技术的高速发展和信息技术的广泛应用引发了一类新型应用,包括计算机网络流量控制、网络安全监控、金融应用、环境监测和日志分析等。在这些新型的应用中,数据以流的形式产生,它实时、持续、有序地到达。这种由一系列连续且有序的数据组成的序列被称为数据流。与传统数据库不同,数据流具有如下特点:无限性;不可再现性;数据到达速率极快;数据的到达次序不受应用约束。分析和挖掘数据流已成为热点研究问题。 数据流挖掘即在流式数据上提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据流挖掘主要是通过挖掘频繁项(集)、分类分析、聚类分析、异常分析等知识发现活动,以寻找数据流中的关联规则、分类规则、聚类模式、异常模式等类型的知识。如挖掘数据流中的频繁项可应用于基于流量的网络计费、网络交通阻塞控制、网络安全监控等。对数据流进行聚类分析可应用于监测网络入侵、在线新闻组过滤、话题识别与跟踪、对交通拥塞与地理环境等进行实时监控、对大型公司中不同顾客群进行划分、检测金融欺诈等。 由于存储空间的有限性与数据流的无限性,使得存储数据流中的全部数据以提供精确的挖掘结果是不实际的。因此,在数据流处理模型中,数据流处理算法只存储数据流的概要信息,并随着流中数据不断到来,不断更新流概要,同时根据用户的查询要求,利用所维护的数据流概要信息,为用户提供近似的查询结果。 由于频繁项挖掘与聚类分析在网络数据流分析中有着重要的应用,我们主要进行数据流环境下的频繁项挖掘与聚类分析方法的研究。在网络数据流及大量的其它应用领域中,数据类型多种多样,它们不仅包括数值型数据,而且包括非数值型数据,且这些数据经常会有几十甚至几百个属性,使得研究混合属性数据流的聚类及高维属性数据流聚类均具有重要的理论价值与实际意义。以生物系统的机理为基础设计算法和系统是近代研究的热点,并已取得了瞩目成效。而人工免疫系统(AIS)结合了分类器、神经网络和机器推理等系统的一些优点,具有提供新颖的问题解决方法的潜力。同时AIS在数据流聚类中也已有了初步研究,本文针对现有基于AIS的数据流聚类存在的不足,研究新的基于AIS的数据流聚类算法。本文的研究内容和创新工作可概括为以下四个方面。 (1)数据流频繁项挖掘算法的研究 本文在Bloom Filter的基础上,提出空间效率高、可支持表达庞大数据集及较高查找效率的数据结构—可扩展Bloom Filter,并基于该数据结构提出基于界标窗口模型的数据流频繁项挖掘算法(FI-ESBFL),同时通过理论证明只需比同类算法中更少的计数器数目即可达到相同的精度与置信度要求。FI-ESBFL可以根据数据流中数据的不同分布及不同的数据项的多少动态调整所使用的内存空间,从而大大减少了内存空间的浪费。实验证明FI-ESBFL具有更高的空间效率与较高的时间效率。本文在FI-EBFSL的基础上还提出了基于衰减窗口模型的数据流频繁项挖掘算法—FI-ESBFD及基于滑动窗口模型的数据流频繁项挖掘算法—FIS-EBFS。FIS-EBFSD具有在一般情况下比同类算法有更高的时间与空间效率。FIS-EBFS具有高效的时间性能。 (2)混合属性数据流聚类分析算法的研究 本文提出两种不同的基于熵的混合属性数据对象间相似性度量,并在此基础上提出两类混合属性数据流聚类算法——CNCE-Stream与CNCDE-Stream。其中CNCDE-Stream同时利用欧式距离与熵来定义混合属性数据对象间的相似性。在算法CNCE-Stream中,利用单一的量——熵度量混合属性数据对象间的相似性,提出数据流环境下概率密度函数的估计方法—S核方法和带混合属性的类的期望熵计算方法。实验结果表明,CNCDE-Stream与CNCE-Stream均具有较高的聚类质量,且CNCDE-Stream具有很高的时间效率。 (3)高维数据流子空间聚类分析算法的研究 针对大部分现有的数据流聚类算法只适合于待聚类的数据含有的维度较低的情况及现有数据流子空间聚类算法的不足,本文提出基于网格与密度的高维数据流子空间聚类算法—SOStream。SOStream在线维护一个所有密集网格单元的超集,并提出延迟插入潜在密集网格单元与定期修剪非密集(稀疏)网格单元策略,提高了算法的时间与空间效率。当用户请求时,利用在线维护的密集网格单元生成最终类结构。我们通过实验证明了本算法的有效性。 (4)基于人工免疫原理的数据流聚类分析算法的研究 本文根据人工免疫系统可动态适应外部环境的变化,提出一种新的基于人工免疫网络的数据流聚类算法—AIN-Stream。AIN-Stream利用外部抗原(流数据)对B细胞的激励作用定义B细胞的激励度,并通过为B细胞创建特征向量,利用统计分析的方法自动确定基于人工免疫聚类算法的关键参数—B细胞识别区域,保证了聚类结果的稳定性。同时,AIN-Stream利用B细胞特征向量中的统计信息更有效地去除冗余B细胞,进一步提高了算法效率。在生成聚类结果时,AIN-Stream无需指定类数,可真正实现无监督聚类。实验表明,AIN-Stream能够动态适应数据流的变化,并具较高的聚类质量,且具有更高的空间效率与明显的时间效率提高。 本文提出的算法是对现有数据流上的频繁项挖掘技术与聚类分析技术的补充与改进,理论分析与实验结果表明本文算法能够较为有效地解决相应问题。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP311.13

手机知网App
【引证文献】
中国博士学位论文全文数据库 前2条
1 屠莉;流数据的频繁项挖掘及聚类的关键技术研究[D];南京航空航天大学;2009年
2 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前4条
1 祝文新;一种基于活跃网格密度的数据流聚类算法[D];哈尔滨工程大学;2011年
2 何艳珊;并行化频繁项集挖掘及其在数据流中的研究[D];兰州大学;2010年
3 陈毅;基于网格的并行聚类算法及数据流聚类算法研究[D];兰州大学;2010年
4 豆飞飞;基于Sketch的数据流频繁项集挖掘研究[D];西安电子科技大学;2012年
【参考文献】
中国期刊全文数据库 前8条
1 邵学广,陈宗海,林祥钦;一种新型的信号拟合方法─—免疫算法[J];分析化学;2000年02期
2 郭龙江,李建中,王伟平,张冬冬;数据流上的连续预测聚集查询[J];计算机研究与发展;2004年10期
3 宋国杰,唐世渭,杨冬青,王腾蛟;数据流中异常模式的提取与趋势监测[J];计算机研究与发展;2004年10期
4 周晓云;孙志挥;张柏礼;杨宜东;;高维数据流子空间聚类发现及维护算法[J];计算机研究与发展;2006年05期
5 王涛;李舟军;颜跃进;陈火旺;;数据流挖掘分类技术综述[J];计算机研究与发展;2007年11期
6 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期
7 张冬冬;李建中;王伟平;郭龙江;;数据流历史数据的存储与聚集查询处理算法[J];软件学报;2005年12期
8 郑军;胡铭曾;云晓春;郑仲;;基于数据流方法的大规模网络异常发现[J];通信学报;2006年02期
【共引文献】
中国期刊全文数据库 前10条
1 朱五英;;关于刻度参数的两样本的检验[J];安徽电子信息职业技术学院学报;2006年02期
2 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期
3 郇正军;赵国富;;基于土地利用的空间数据挖掘系统的设计与实现[J];安徽农业科学;2011年07期
4 苏岩;统计推断在科学发现中的作用和统计模型的确定[J];保定师范专科学校学报;2004年04期
5 陈明华;刘海涛;江劲勇;李东阳;冯涛;刘海峰;;贮存条件对毛刷式装药结构火箭发动机固药力的影响[J];火炸药学报;2006年04期
6 吴晓军;沈向辉;曾志斌;;一种改进的RS编码算法及其FPGA实现[J];中国传媒大学学报(自然科学版);2012年01期
7 高明霞;姚文集;毛国君;;XML数据流中面向聚类的指数直方图[J];北京工业大学学报;2011年08期
8 黄崇福,冯允成;用模糊集方法实现管理系统仿真输入非参数化的研究[J];北京航空航天大学学报;1994年03期
9 卢宏建;高永涛;吴顺川;潘贵豪;;石人沟铁矿露天转地下开采生产规模优化[J];北京科技大学学报;2008年09期
10 冯文峰;郭巧;吴素妍;;基于多层概要结构的数据流的频繁项集发现算法[J];北京理工大学学报;2006年06期
中国重要会议论文全文数据库 前10条
1 ;Incremental Clustering for Categorical Data Using Clustering Ensemble[A];第二十九届中国控制会议论文集[C];2010年
2 杨晓霞;朱庆;李海峰;;知识导航的遥感信息处理服务分类选择方法[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
3 陈志坤;杨树强;李爱平;郑黎明;;数据流与数据库之间混合连接查询算法的研究[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
4 江杨;;流数据存储系统体系结构研究[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
5 韩矞;贾焰;甘亮;;一种基于网络安全数据流的混合CUBE模型[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
6 王亦兵;杨树强;王晓伟;;一个面向数据流的多维分析系统的研究与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
7 黄琼;石雄;;基于CVFDT入侵检测技术的研究[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 刘东;韩伟红;郑黎明;;基于数据流管理系统的网络安全事件多维分析[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
9 刘伟;孟新;;对地观测卫星的多目标分配方法[A];中国空间科学学会空间探测专业委员会第十九次学术会议论文集(下册)[C];2006年
10 刘晓平;李书杰;石慧;;规律维问题初探[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(下册)[C];2006年
中国博士学位论文全文数据库 前10条
1 张泽宝;空间数据库的索引技术研究[D];哈尔滨工程大学;2009年
2 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
3 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
4 苏日建;信息测量系统及其若干问题的研究[D];华中科技大学;2010年
5 吴海;移动实时数据库中的数据广播策略研究[D];华中科技大学;2010年
6 王大伟;基于免疫的入侵检测系统中检测器性能研究[D];哈尔滨理工大学;2010年
7 李晋江;海量数据点三维重构中一类关键问题研究[D];山东大学;2010年
8 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
9 杨雪榕;卫星跟飞编队控制问题研究[D];国防科学技术大学;2010年
10 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘志强;基于数据挖掘的客户行为分析和预测研究[D];山东科技大学;2010年
2 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
3 杨海陆;公路收费系统数据分析与挖掘[D];哈尔滨工程大学;2010年
4 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
5 何晓冰;大规模网络流量异常预警技术研究[D];哈尔滨工程大学;2010年
6 于洋;一种改进的COBWEB算法研究[D];哈尔滨工程大学;2010年
7 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
8 李魁星;基于信息熵遗传算法的舰船导航路径规划技术研究[D];哈尔滨工程大学;2010年
9 骆永健;基于聚类的数据流异常检测算法的研究[D];哈尔滨工程大学;2010年
10 杜以韧;基于网格和密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 钱江波;王永利;陈征;陈华辉;金光;;数据流窗口连接查询处理器研究[J];电子学报;2009年02期
2 梁铁柱,李建成,王晔;一种应用聚类技术检测网络入侵的新方法[J];国防科技大学学报;2002年02期
3 宋国杰,唐世渭,杨冬青,王腾蛟;数据流中异常模式的提取与趋势监测[J];计算机研究与发展;2004年10期
4 杨宜东,孙志挥,张净;基于核密度估计的分布数据流离群点检测[J];计算机研究与发展;2005年09期
5 王涛;李舟军;颜跃进;陈火旺;;数据流挖掘分类技术综述[J];计算机研究与发展;2007年11期
6 毛国君;宗东军;;基于多维数据流挖掘技术的入侵检测模型与算法[J];计算机研究与发展;2009年04期
7 郭艳红,邓贵仕;基于事例的推理(CBR)研究综述[J];计算机工程与应用;2004年21期
8 孙玉芬;卢炎生;;流数据挖掘综述[J];计算机科学;2007年01期
9 刘青宝;戴超凡;邓苏;张维明;;基于网格的数据流聚类算法[J];计算机科学;2007年03期
10 周兵;冯中慧;王和兴;;集群环境下的并行聚类算法之研究[J];计算机科学;2007年10期
中国重要会议论文全文数据库 前1条
1 施鸿喜;陈崇超;范明;;一种基于密度单元覆盖的聚类数据流算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前7条
1 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
2 颜跃进;最大频繁项集挖掘算法的研究[D];国防科学技术大学;2005年
3 孙玉芬;基于网格方法的聚类算法研究[D];华中科技大学;2006年
4 徐玉生;频繁模式挖掘算法与剪枝策略研究[D];兰州大学;2008年
5 陈华辉;基于遗忘特性的数据流概要结构及其应用研究[D];复旦大学;2008年
6 张晨;数据流聚类分析与异常检测算法[D];复旦大学;2009年
7 杨蓓;数据流top-K频繁模式挖掘算法研究[D];北京交通大学;2009年
中国硕士学位论文全文数据库 前4条
1 曾东海;基于网格密度和空间划分树的聚类算法研究[D];厦门大学;2006年
2 王宪鹏;基于网格的MST数据流聚类算法研究[D];哈尔滨工程大学;2009年
3 杨霞玲;多维数据流聚类算法的分析与实现[D];北京工业大学;2009年
4 李敏;基于网格和密度的数据流聚类算法研究[D];武汉理工大学;2009年
【二级引证文献】
中国期刊全文数据库 前3条
1 韩宇;;流数据挖掘关键技术研究[J];硅谷;2011年20期
2 张成虎;吴莹莹;;基于Binary-SADT的可疑金融交易识别方法[J];上海金融;2012年05期
3 陈立章;李斌;陈晓鹏;;高校BBS舆情监测系统设计与实现[J];微处理机;2012年01期
中国博士学位论文全文数据库 前1条
1 张剑;宽带接入网流量识别关键技术研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前1条
1 朱剑波;一种基于垂直划分的数据流频繁项集挖掘算法[D];哈尔滨工程大学;2011年
【二级参考文献】
中国期刊全文数据库 前3条
1 杨宜东,孙志挥,张净;基于核密度估计的分布数据流离群点检测[J];计算机研究与发展;2005年09期
2 钱江波;徐宏炳;董逸生;王永利;刘学军;杨雪梅;;基于最小生成树的数据流窗口连接优化算法[J];计算机研究与发展;2007年06期
3 邹柏贤;一种网络异常实时检测方法[J];计算机学报;2003年08期
【相似文献】
中国期刊全文数据库 前10条
1 王磊;黄志球;朱小栋;沈国华;程亮;;数据流中基于事务链表组的频繁闭项集挖掘[J];计算机工程与设计;2008年08期
2 邝祝芳;阳国贵;辛动军;;SWFPM:一种有效的数据流频繁项挖掘算法[J];计算机应用研究;2009年02期
3 张月琴;;滑动窗口中数据流频繁项集挖掘方法[J];计算机工程与应用;2010年16期
4 骆盈盈;陈川;毛云芳;;基于传感器网络的关联规则挖掘算法研究[J];计算机工程与设计;2007年08期
5 徐建民;郝丽维;王煜;;数据流频繁项集的快速挖掘方法[J];计算机工程与应用;2008年34期
6 苏勇;郑昭华;范玉玲;;数据流中的频繁项集挖掘[J];信息技术;2011年06期
7 王磊;黄志球;朱小栋;沈国华;程亮;;数据流中基于矩阵的频繁项集挖掘[J];计算机科学与探索;2008年03期
8 汪金苗;张龙波;邓齐志;王凤英;王勇;;不确定数据频繁项集挖掘方法综述[J];计算机工程与应用;2011年20期
9 侯伟;杨炳儒;吴晨生;周谆;;基于周期采样的数据流频繁项集挖掘算法研究[J];高技术通讯;2009年08期
10 舒平达;陈华辉;;数据流上最近频繁项集挖掘算法[J];计算机工程与应用;2009年18期
中国重要会议论文全文数据库 前10条
1 楚红涛;寒枫;张燕;王婷;;基于数据流的挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
2 于健;陈子军;李霞;李炜;;一种新的多密度聚类算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 刘马金;王鹏;汪卫;;一种轮转的数据流频繁项挖掘算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
4 田小丽;郑康锋;钮心忻;;一种基于改进K-Medoids算法的网络攻击检测技术[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
5 邝祝芳;谭骏珊;杨卫民;辛动军;;基于渐增最小支持度函数的数据流频繁项挖掘[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
6 潘玉奇;石冰;周劲;袁宁;;基于多维数据模型的聚类分析的研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
7 王静;汪晓刚;;一种新的保护原始数据隐私性的聚类算法[A];第十届中国科协年会论文集(三)[C];2008年
8 谷峪;冯智博;武珊珊;于戈;吕雁飞;;数据流上基于扩展窗口模型的连接维护算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
9 张昕;彭宏;郑启伦;;基于微粒群算法的聚类分析[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
10 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
中国重要报纸全文数据库 前10条
1 陈军;承钢信息化水平再上新台阶[N];现代物流报;2007年
2 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
3 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
4 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
5 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
6 张立明;数据挖掘之道[N];网络世界;2003年
7 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
8 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
9 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
10 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 王述云;数据流频繁项挖掘与聚类分析的研究[D];复旦大学;2008年
2 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
3 曹锋;数据流聚类分析算法[D];复旦大学;2006年
4 倪萍;流数据挖掘关键技术研究[D];北京邮电大学;2010年
5 张瑀;基于实验数据挖掘与细胞自动机的结构分析方法[D];哈尔滨工业大学;2010年
6 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
7 马海兵;频繁模式挖掘相关技术研究[D];复旦大学;2005年
8 李实;中文网络客户评论中的产品特征挖掘方法研究[D];哈尔滨工业大学;2009年
9 李广水;基于服务的森林资源调查数据挖掘系统的研究[D];南京林业大学;2010年
10 王喆;商务数据中的关联和聚类算法研究[D];吉林大学;2005年
中国硕士学位论文全文数据库 前10条
1 郭兴凯;数据流挖掘技术的研究[D];黑龙江大学;2005年
2 王天真;基于神经网络的智能数据挖掘方法及应用研究[D];上海海事大学;2003年
3 于泓漪;道路交通事故原因的聚类分析[D];吉林大学;2005年
4 侯雪波;关联规则挖掘技术在电力市场营销分析中的应用[D];天津大学;2005年
5 武兆慧;基于遗传算法的聚类方法研究[D];山东师范大学;2006年
6 张兆中;WEB文本挖掘的聚类分析[D];山东科技大学;2005年
7 陈力捷;数据流频繁项挖掘系统的研究和实现[D];浙江大学;2007年
8 刘卫;基于剪枝概念格模型的频繁项集表示及挖掘研究[D];合肥工业大学;2007年
9 唐艺军;基于蚁群算法的数据挖掘应用研究[D];辽宁工程技术大学;2007年
10 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026