收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

多维数据流聚类算法的分析与实现

杨霞玲  
【摘要】: 随着计算机科学的逐步成熟和信息社会需求的提高,人们需要在日益庞大的信息中发现对决策有用的知识,数据挖掘作为一门新兴的交叉学科应运而生;随着信息技术的高速发展和互联网逐渐深入和广泛的应用,人们所面对的信息越来越多地包含以流的形式产生的数据,数据挖掘不仅仅需要处理存放在数据库中的那些“过时”的静态数据,而且面对着一种新的数据形式——在线实时数据流。数据流是由一系列连续且有序的数据组成的序列,具有数据量无限、到达速度快、不可再现等特点。因此,如何有效地处理数据流,成为数据挖掘面临的新挑战,也得到这一研究领域的广泛关注。 由于存储空间的有限性与数据流的无限性,使得存储数据流中的全部数据以提供精确的挖掘结果是不实际的。因此,在数据流处理模型中,数据流挖掘算法只存储数据流的概要信息,并随着流中数据不断到来,不断更新流概要,同时根据用户的查询要求,利用所维护的数据流概要信息,为用户提供近似的查询结果。 数据挖掘中聚类分析是一个重要的课题,并在数据挖掘的发展趋势中发挥着重要的作用。数据挖掘技术是面向应用的,它最终需要应用到现实世界中的数据上,而真实数据往往具备许多属性,这就造成数据挖掘所处理的往往是多维数的数据。针对数据的多维性,不同的聚类算法采取了不同的处理技术。 针对多维数据流的聚类算法必须满足更高的要求,在处理多维数数据的同时,还要保证算法的时间、空间效率以适应数据流。对此,本文主要进行具有多维数的数据流环境下的聚类分析方法的研究,研究内容可概括为以下三个方面: (1)针对多维数据流的特点,探讨了数据流挖掘中的窗口机制,分析了典型的多维数据流聚类算法Cell Tree算法的优缺点,提出了一种新的内存模型结构LIST TREE。 (2)基于数据结构LIST TREE提出一种新的多维数据流聚类算法LTC,并利用多线程编程方法极大程度地模拟在线处理数据流,以检验新算法。 (3)对Cell Tree算法和LTC算法进行了对比实验,通过对实验结果详细全面的比较,分析了这两个算法的效率和聚类效果。 实验表明,LTC算法不仅对数据流具有良好的适应性,而且比Cell Tree算法具有更高的时间、空间效率,并且达到了更好的聚类效果。因此,LTC算法在数据流挖掘领域具有重要的研究价值和意义。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 邝祝芳;阳国贵;辛动军;;SWFPM:一种有效的数据流频繁项挖掘算法[J];计算机应用研究;2009年02期
2 琚春华;陈之奇;;一种挖掘概念漂移数据流的模糊积分集成分类方法[J];山东大学学报(工学版);2011年04期
3 赵传申;孙志挥;;半结构化文档数据流的快速频繁模式挖掘[J];东南大学学报(自然科学版);2006年03期
4 骆盈盈;陈川;毛云芳;;基于传感器网络的K-均值聚类算法研究[J];计算机工程与设计;2007年06期
5 程转流;胡为成;;数据流频繁模式挖掘技术研究[J];铜陵学院学报;2007年05期
6 苏亮;邹鹏;贾焰;;数据流上自适应的稀疏Skyline挖掘[J];自动化学报;2008年03期
7 王磊;黄志球;朱小栋;沈国华;程亮;;数据流中基于矩阵的频繁项集挖掘[J];计算机科学与探索;2008年03期
8 刘春;郑征;蔡开元;张师超;;数据流频繁闭集的在线挖掘[J];北京航空航天大学学报;2008年08期
9 屠莉;陈崚;邹凌君;;数据流的网格密度聚类算法[J];小型微型计算机系统;2009年07期
10 侯伟;吴晨生;杨炳儒;方炜炜;;一种高效的离线数据流频繁模式挖掘算法[J];计算机科学;2009年07期
11 杨路明;刘立新;毛伊敏;谢东;;数据流中基于滑动窗口的最大频繁项集挖掘算法[J];计算机应用研究;2010年02期
12 张月琴;;滑动窗口中数据流频繁项集挖掘方法[J];计算机工程与应用;2010年16期
13 张月琴;陈东;;数据流最大频繁项挖掘方法[J];计算机工程;2010年22期
14 徐利军;谢康林;徐虹;;基于数据流的频繁集挖掘[J];上海交通大学学报;2006年03期
15 骆盈盈;陈川;毛云芳;;基于传感器网络的关联规则挖掘算法研究[J];计算机工程与设计;2007年08期
16 朱小栋;黄志球;陈圣青;黄凤;沈国华;;面向数据流挖掘过程的算法管理框架[J];应用科学学报;2008年01期
17 于翔;印桂生;;数据流的不规则网格增量聚类算法[J];哈尔滨工程大学学报;2008年08期
18 朱参世;李响;;自适应模糊决策树算法在数据流挖掘中的应用[J];现代电子技术;2010年10期
19 刘学军;徐宏炳;董逸生;王永利;钱江波;;数据流管理技术[J];计算机科学;2005年04期
20 陆楠;李晓林;;基于动态窗口的数据流频繁闭合模式挖掘算法[J];信息与电脑(理论版);2009年10期
中国重要会议论文全文数据库 前10条
1 邝祝芳;谭骏珊;杨卫民;辛动军;;基于渐增最小支持度函数的数据流频繁项挖掘[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
2 蔡致远;魏藜;钱卫宁;周傲英;;DEODS:快速准确的数据流密度估计[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 丁健;李建中;李金宝;高宏;;数据流上的并行决策树构成算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 赵哲;孙婷;陈立军;崔斌;;一种数据流上的快速分段算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
5 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
6 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
7 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
8 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
9 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
10 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
中国博士学位论文全文数据库 前10条
1 闫秋艳;煤矿概率流数据挖掘方法研究[D];中国矿业大学;2010年
2 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
3 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
4 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
5 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
6 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
7 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
8 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
9 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
10 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年
中国硕士学位论文全文数据库 前10条
1 杨霞玲;多维数据流聚类算法的分析与实现[D];北京工业大学;2009年
2 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
3 车辚辚;基于数据挖掘的电能质量扰动检测与识别技术研究[D];华北电力大学(河北);2008年
4 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
5 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
6 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
7 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
8 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
9 王浩;数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究[D];华东理工大学;2012年
10 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
中国重要报纸全文数据库 前10条
1 陈军;承钢信息化水平再上新台阶[N];现代物流报;2007年
2 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
3 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
4 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
5 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
6 张立明;数据挖掘之道[N];网络世界;2003年
7 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
8 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
9 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
10 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978