收藏本站
《哈尔滨工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于网格的数据流聚类方法研究

于翔  
【摘要】:近年来,数据采集技术以及数据挖掘技术不断发展,通常在短时间内就可以采集到大量的数据,并加以分析处理。随着信息技术以及Web技术的飞速发展,数据不再是存储于可多次随机访问的介质中的静态数据,而是称之为数据流的动态流式数据。不同于静态数据,数据流具有实时性、连续性、顺序性等特性,因而传统的聚类分析技术无法直接应用于数据流,需要新的聚类分析技术来处理数据流。本文针对数据流聚类技术从多个方面进行了深入细致地研究。 首先,分析了基于网格的聚类算法的优缺点,进而对传统的静态网格划分方法以及动态网格划分方法进行了研究,针对网格聚类算法中数据空间的划分方法进行改进,拟对新的数据空间动态划分策略展开研究,使其可增量地更新网格单元的结构以及统计信息。在此基础上,设计出基于动态网格划分的聚类算法,使得新算法不仅具有传统网格聚类算法的高效性,且在一定程度上提高聚类的质量。 其次,在新的数据空间动态划分策略的基础上,着重针对数据流的增量聚类进行研究。对现有的数据流聚类算法和增量聚类算法的特性以及存在的问题进行分析,针对数据流对聚类算法的实时性等方面的要求以及现有聚类算法对非球形聚类效果不好的缺点,设计一种基于数据流的不规则网格增量聚类算法。使得与其它算法相比,新算法具备传统网格聚类算法处理速度快的优点,同时不断动态增量地调整网格整体结构。并充分利用网格聚类算法的特点,通过判断网格是否相连,保证对于不同形状聚类的聚类效果。在网格聚类时,无需预先指定聚类数目,且对孤立点有较好的鲁棒性。通常包含孤立点的网格单元不会满足稠密度阈值的要求,可以通过剪枝策略进行去除以减少算法复杂性。由于动态划分的网格单元反映了当前数据流的分布特点,新算法应在一定程度上提高聚类的精度。 再次,在分析高维数据聚类方法和维度约简方法以及这两种方法在数据流环境中应用的基础上,针对高维空间数据稀疏性、数据属性重要度倾斜等问题,对粗糙集理论进行研究,拟设计一种基于粗糙集属性约简的数据流增量聚类算法。新算法应针对聚类的无监督特性通过改进后的无决策属性的属性约简方法计算数据点各属性的重要度,并调整属性集。在属性集中增加具有较高重要度属性的同时,淘汰属性集中不再重要的属性。同时,新的约简算法在保证聚类精度的前提下,可动态调整参与聚类的属性集合,提高算法的效率。 最后,对现有的数据流子空间聚类算法进行研究,针对现有子空间聚类算法中效率较低的问题,拟提出一种新的基于区域划分策略的数据流子空间聚类算法,新算法拟采用自底向上的搜索策略,充分考虑数据点在每维上的分布特性,对各维空间进行区域划分,根据区域交叠产生聚类子空间,进而聚类。新算法应具有处理速度快、对孤立点不敏感等优点,可以有效地在高维数据流中识别出子空间聚类。且可根据数据流的变化情况,对区域进行重新划分,以有效地反映数据流的变化。 本文的工作围绕着数据流聚类展开,通过对数据挖掘技术、人工智能技术、粗糙集理论等的研究,并通过仿真实验证明方法的有用性和有效性,为未来的研究工作提供了良好的理论基础和思路。
【学位授予单位】:哈尔滨工程大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP311.13

【引证文献】
中国期刊全文数据库 前1条
1 邢长征;张国凯;;基于自适应网格划分的数据流聚类算法[J];计算机工程与科学;2011年10期
【参考文献】
中国期刊全文数据库 前10条
1 周晓云;孙志挥;张柏礼;杨宜东;;高维数据流子空间聚类发现及维护算法[J];计算机研究与发展;2006年05期
2 周晓云;孙志挥;张柏礼;杨宜东;;高维数据流聚类及其演化分析研究[J];计算机研究与发展;2006年11期
3 孙士保;赵文涛;秦克云;王艳丽;;基于粗糙集的数据聚类方法研究[J];计算机工程与应用;2006年22期
4 郑盈盈;倪志伟;吴姗;王丽红;;基于移动网格和密度的数据流聚类算法[J];计算机工程与应用;2009年08期
5 高永梅;黄亚楼;;一种基于网格和密度的数据流聚类算法[J];计算机科学;2008年02期
6 康伟;李战怀;张龙波;;基于滑动窗口的数据流连接聚集查询降载策略[J];计算机工程;2009年22期
7 沈红斌,杨杰,王士同,董一飞;基于信息理论的合作聚类算法研究[J];计算机学报;2005年08期
8 杨春宇;周杰;;一种混合属性数据流聚类算法[J];计算机学报;2007年08期
9 周傲英;金澈清;王国仁;李建中;;不确定性数据管理技术研究综述[J];计算机学报;2009年01期
10 王丹;李茂增;;一种数据流查询共享模型的设计[J];计算机应用;2009年11期
中国博士学位论文全文数据库 前1条
1 孙玉芬;基于网格方法的聚类算法研究[D];华中科技大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 赵彦辉;张乐文;邱道宏;仲晓杰;;基于粗糙集理论的隧道围岩模糊综合评判[J];四川建筑科学研究;2011年02期
2 吕俊;任雪萍;;一种基于粗糙集理论的变压器故障多变量决策树诊断方法[J];安徽电气工程职业技术学院学报;2011年01期
3 范进;;产业结构对产业集群影响力的实证分析[J];安徽广播电视大学学报;2006年04期
4 于立红;杜芸;;数据挖掘中数据预处理方法与技术[J];安徽电子信息职业技术学院学报;2009年04期
5 舒坚;郑诚;陈振;;基于关联分类方法的Web使用挖掘研究[J];安徽大学学报(自然科学版);2006年02期
6 孙虹;方敏;;基于Rough集和RBF网络的车牌字符识别方法[J];安徽建筑工业学院学报(自然科学版);2006年04期
7 孙虹;;粗糙集神经网络系统在车牌字符识别中的研究[J];安徽建筑工业学院学报(自然科学版);2007年04期
8 张继宝;汪明武;谢慧敏;;基于粗糙集理论的围岩稳定性模糊综合评价[J];安徽建筑工业学院学报(自然科学版);2008年02期
9 李岚;胡学钢;;基于回归分析的COCOMO模型改进[J];安徽建筑工业学院学报(自然科学版);2010年06期
10 孙虹;龚雪;;一种基于Rough集和RBF网络的模拟电路故障诊断方法[J];安徽建筑工业学院学报(自然科学版);2012年03期
中国重要会议论文全文数据库 前10条
1 尹宗成;;粗糙集理论在我国粮食产量预测中的应用[A];现代农业理论与实践——安徽现代农业博士科技论坛论文集[C];2007年
2 危前进;董荣胜;孟瑜;崔更申;;基于粗糙集的机械装配知识发现方法[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
3 何鹏;王雅琳;桂卫华;孔玲爽;;氧化铝硅渣成分的混沌时间序列分析与SVM预测[A];第二十九届中国控制会议论文集[C];2010年
4 曾成;赵锡均;徐红;;基于量子遗传算法的聚类方法[A];第二十九届中国控制会议论文集[C];2010年
5 杨青;刘晔;张东旭;刘畅;;快速查找最优初始聚类数K的改进K-means算法[A];中国自动化学会控制理论专业委员会A卷[C];2011年
6 王伟珍;刘春红;张漫;李民赞;刘刚;;基于BP神经网络的温室番茄光合作用速率预测模型研究[A];中国农业工程学会2011年学术年会论文集[C];2011年
7 毕锦烟;李巍华;;基于半监督模糊核聚类的齿轮箱早期故障检测方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
8 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
9 李雪红;叶燕华;;水工混凝土结构裂缝主要成因挖掘的粗集方法[A];第五届混凝土结构耐久性科技论坛论文集[C];2006年
10 杨雯怡;郑康锋;杨义先;;一种自适应的网络安全防护方案[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
3 王俊杰;基于ArcGIS Server的震害风险管理系统研究[D];中国海洋大学;2010年
4 杨锦园;基于传感器管理的移动机器人融合算法研究[D];华中科技大学;2010年
5 徐红波;基于空间填充曲线高维空间查询算法研究[D];哈尔滨理工大学;2010年
6 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
7 任家福;服务商选择与备件备品库存管理研究[D];电子科技大学;2010年
8 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
9 罗彬;基于MMOI方法的电信客户流失预测与挽留研究[D];电子科技大学;2010年
10 尹可挺;Internet环境中基于QoS的Web服务组合研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘文昊;基于模糊聚类和纹版辅助的织物疵点检测算法研究[D];浙江理工大学;2010年
2 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
3 雷聪聪;一种基于数据聚类的信息粒化方法[D];郑州大学;2010年
4 张晓冬;基于全矢谱的智能诊断技术研究[D];郑州大学;2010年
5 王晓换;基于粗糙集和神经网络的故障诊断虚拟系统的研究[D];郑州大学;2010年
6 杨海陆;公路收费系统数据分析与挖掘[D];哈尔滨工程大学;2010年
7 徐一凤;隐私保护聚类挖掘方法的研究[D];哈尔滨工程大学;2010年
8 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
9 冯为军;基于粗糙集理论的数据挖掘算法的研究[D];哈尔滨工程大学;2010年
10 于洋;一种改进的COBWEB算法研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前3条
1 胡彧;闫巧梅;;滑动窗口模型下的优化数据流聚类算法[J];计算机应用;2008年06期
2 常建龙;曹锋;周傲英+;;基于滑动窗口的进化数据流聚类[J];软件学报;2007年04期
3 杨宁;唐常杰;王悦;陈瑜;郑皎凌;;一种基于时态密度的倾斜分布数据流聚类算法[J];软件学报;2010年05期
中国博士学位论文全文数据库 前1条
1 单世民;基于网格和密度的数据流聚类方法研究[D];大连理工大学;2006年
【二级参考文献】
中国期刊全文数据库 前10条
1 李洁;高新波;焦李成;;基于特征加权的模糊聚类新算法[J];电子学报;2006年01期
2 王伟平,李建中,张冬冬,郭龙江;数据流上周期更新滑动窗口的连接算法[J];哈尔滨工业大学学报;2005年06期
3 刘少辉,胡斐,贾自艳,史忠植;一种基于Rough集的层次聚类算法[J];计算机研究与发展;2004年04期
4 余建桥;张帆;;基于数据场改进的PAM聚类算法[J];计算机科学;2005年01期
5 孙玉芬;卢炎生;;流数据挖掘综述[J];计算机科学;2007年01期
6 孙玉芬;卢炎生;;一种基于网格方法的高维数据流子空间聚类算法[J];计算机科学;2007年04期
7 刘学军;胡平;徐宏炳;董逸生;;基于滑动窗口的在线数据流增量聚集查询[J];计算机工程;2007年21期
8 张莉,周伟达,焦李成;核聚类算法[J];计算机学报;2002年06期
9 刘少辉,盛秋戬,吴斌,史忠植,胡斐;Rough集高效算法的研究[J];计算机学报;2003年05期
10 谷峪;于戈;张天成;;RFID复杂事件处理技术[J];计算机科学与探索;2007年03期
【相似文献】
中国期刊全文数据库 前10条
1 李斌;数据流处理自动化和重新设计[J];管理科学文摘;1997年05期
2 赵以强;张龙波;;数据流管理系统研究现状分析[J];科技信息;2010年28期
3 王金栋;张磊;丁秋林;黄添强;;一种支持分布式数据流处理的双层重叠网络模型[J];应用科学学报;2006年04期
4 安红,孟建;基于数据流处理的雷达对抗仿真框架研究[J];电子对抗技术;2004年06期
5 谢应科,张涛,韩承德;实时SAR成像系统中矩阵转置的设计和实现[J];计算机研究与发展;2003年01期
6 杜威,邹先霞;基于数据流的滑动窗口机制的研究[J];计算机工程与设计;2005年11期
7 王桐;刘大昕;;一种新的混合XML文档聚类方法[J];哈尔滨工程大学学报;2007年06期
8 俞研;黄皓;;基于小样本标记实例的数据流集成入侵检测模型[J];电子学报;2007年02期
9 李浪;李仁发;;基于数据流异常挖掘的入侵检测系统设计[J];科学技术与工程;2008年13期
10 羌晨晨;;数据流关键技术研究概论[J];装备制造技术;2009年11期
中国重要会议论文全文数据库 前10条
1 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 魏永超;陈立军;;数据流上复杂事件处理系统Eagle的设计与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 蔡致远;熊方;钱卫宁;周傲英;;核合并分析及其在数据流密度估计上的应用[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
4 尹婷;李红燕;;窗口模型下数据流查询流水化执行的研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 宋宝燕;陆岩;张俊宁;;数据流上的一种适应性查询优化及调度策略[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 吕雁飞;武珊珊;谷峪;许嘉;于戈;;一种数据流上统计性查询QoS的保证方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 周锐;肖川;王国仁;韩东红;霍欢;;数据流滑动窗口连接上的卸载技术的研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
8 霍欢;王国仁;陈庆奎;彭敦陆;;基于Hole-Filler模型的XML数据流上的SLCA算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
9 楚红涛;寒枫;张燕;王婷;;基于数据流的挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
10 武珊珊;宋宝燕;袁锋;于亚新;于戈;;数据流模型研究[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国重要报纸全文数据库 前10条
1 计算机世界实验室 吴挺;Intel的专业“核动力”[N];计算机世界;2007年
2 北京 冬梅;P4时代真的来了吗[N];中国电脑教育报;2001年
3 ;立体防护“中枢神经系统”[N];网络世界;2003年
4 甘久斌;如何有效管理宽带用户[N];通信产业报;2002年
5 ;NetScreen-IDP 500 高端入侵检测与防护设备[N];计算机世界;2003年
6 李勇;降低投资70%[N];中国计算机报;2003年
7 本刊特稿 陈岩;鲁西南村名的文化解读[N];济宁日报;2007年
8 ;在移动互联网里推广IPv6[N];人民邮电;2002年
9 ;港湾网络多业务万兆城域网解决方案[N];人民邮电;2003年
10 记者 郭姜宁;企业级电子商务资金流网络管理系统问世[N];科技日报;2001年
中国博士学位论文全文数据库 前10条
1 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
2 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
3 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
4 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
5 郭立超;数据流挖掘若干技术研究及其在电信行业的应用[D];浙江大学;2011年
6 李军;基于用户行为挖掘的数据流管理技术研究[D];北京邮电大学;2012年
7 由育阳;数据流容错挖掘算法研究[D];哈尔滨工程大学;2011年
8 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
9 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
10 Mahmoud Sami Soliman;[D];中南大学;2010年
中国硕士学位论文全文数据库 前10条
1 何登成;数据流上复杂序查询的研究与实现[D];浙江大学;2010年
2 何江燕;基于数据流的聚类分析算法研究[D];兰州交通大学;2010年
3 梅铮;商业数据流降维方法及其聚类算法研究[D];浙江工商大学;2011年
4 张帆;数据流挖掘中聚类算法的研究与实现[D];北京林业大学;2012年
5 米源;基于密度网格的数据流聚类算法研究[D];西南交通大学;2011年
6 许虎寅;基于密度和网格的数据流聚类算法研究[D];西北师范大学;2012年
7 陈鹏;数据流关联规则挖掘研究及其应用[D];浙江大学;2011年
8 余志虎;数据流聚类算法及其应用[D];南京邮电大学;2011年
9 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
10 张丽;基于网格的数据流聚类算法研究[D];河南大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026