收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

分布式环境下聚类分析新方法的研究

李成安  
【摘要】: 随着计算机和存储技术的快速发展,人们已经积累了大量的历史数据,迫切需要将这些历史数据转化为知识。聚类分析,基于“物以类聚”的朴素思想,将物理或抽象对象集合划分为由相似对象组成的多个类,在数据挖掘领域得到了广泛的研究,并成功应用于各个领域。 近年来,数据库规模持续增长,分布范围日益广泛,而大多数现有聚类分析方法需要一次性将所有数据载入内存,耗费大量计算时间,无法满足海量、分布式数据环境下的知识提取需要,因此分布式环境下聚类分析方法的研究是当今聚类分析领域富有挑战性的前沿课题。本论文致力于这一研究课题,以大规模、分布存储的数据集为研究对象,采用机器学习、人工智能和层次优化等技术和分布式计算相结合的方法,探索分布式环境下新的聚类技术,为高效、合理利用分布的、大规模数据提供理论和技术基础。 本文的主要研究内容和创新点包括以下几个方面: 1.对分布式环境下的聚类分析,从产生背景、算法研究、应用研究等方面进行了较为全面系统的分析和总结。 2.针对分布式聚类的易实现性问题,利用弱聚类算法的易实现性,提出了一种基于Boosting技术的分布式聚类算法DBCA。DBCA算法在每次迭代中,将不同子数据库基于弱聚类算法建立的局部模型组装生成全局模型,各子数据库基于全局模型对其数据进行划分,再根据划分的质量确定下一次迭代的采样概率,通过加权投票集成前些次迭代的划分,并将最后一次集成得到的划分作为最后的聚类结果。分析表明DBCA算法具有可并行计算、良好的伸缩性和通讯代价小等特点,不仅有助于科学家对聚类分析的深入研究。还有助于普通工程技术人员利用分布式聚类技术来解决真实世界中的问题。实验表明DBCA算法可得到与集中数据库相似的结果。 3.针对分布式聚类的集成伸缩性问题,根据数据库的网络分布、网络带宽等特点,利用层次设计思想,对OIKI DDM模型进行扩展,提出了基于移动代理的层次优化集成挖掘模型—HOIKI DDM模型,并相应提出一种分布式聚类算法HOIKIDC。实验和分析表明,HOIKIDC对于分布式环境具有更好的伸缩性,实现更加灵活,效率更高,并可有效降低通讯代价,特别适合于大规模异构分布式数据聚类问题。 4.对分布式聚类的集成有效性问题进行研究。首先提出了集成有效性概念和局部结果不一致性概念,分析了局部结果不一致性的产生原因,提出了协同算法来降低这种不一致性,并相应地提出了一种分布式聚类算法CDCA,通过局部站点之间的信息交互和协同使全局聚类质量得到改善。实验结果表明,CDCA算法使结果集成更为有效。 5.针对应用领域中的时间序列存在数据规模大且分布存储的特点,提出了一种分布式模糊短时间序列聚类算法DFSTS来分析这些时间序列的形状相似性从而更好的揭示序列的结构,并分析了该算法的收敛性。仿真结果表明DFSTS算法具有良好的伸缩性,具有与集中数据集同样的聚类质量,计算效率更高。 6.以国家863计划项目为背景,以冶金生产过程质量预测与操作优化为研究对象,对分布式聚类技术在冶金工业中的应用进行了研究。首先设计了一个分布式数据挖掘系统原型。针对大规模、分布存储的连续退火生产过程数据,应用本文提出的分布式聚类算法完成了两个挖掘任务:1)带钢断带建模与预报;2)离群检测。实验结果表明,该方法对于连续退火过程数据的分析是有效的,对大规模冶金工业生产过程数据分析具有十分广阔的应用前景。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 黄红星;阙树福;黄习培;田立;;模糊蚁群聚类及其在数据挖掘中的应用[J];福建电脑;2007年11期
2 杨传明;;移动代理在数字图书馆中的应用[J];情报杂志;2006年09期
3 汤效琴,戴汝源;数据挖掘中聚类分析的技术方法[J];微计算机信息;2003年01期
4 尹鹏飞;张晓丹;;一种基于简单遗传算法的K-Means改进算法[J];吉首大学学报(自然科学版);2009年06期
5 柴旭光;;基于层次迭代思想的聚类算法的研究[J];邢台职业技术学院学报;2011年01期
6 周晓刚;洪春勇;;蚁群聚类算法在客户分类中的应用[J];计算机与现代化;2007年05期
7 张建萍;刘希玉;;聚类分析在儿童发育时期分析中的应用[J];信息技术与信息化;2005年06期
8 袁宝兰;张万军;张智丰;;随机分类算法的实现及与普通遗传算法的比较[J];杭州电子科技大学学报;2007年02期
9 魏丽;;数据挖掘中聚类算法比较研究[J];电脑知识与技术(学术交流);2007年21期
10 罗建平;苏志同;;聚类分析在铝电解槽况判断中的应用[J];现代计算机(专业版);2008年01期
11 朱海平;王忠浩;张国军;邵新宇;;基于数据挖掘的通用物料清单重构方法研究[J];计算机集成制造系统;2008年02期
12 林治;;聚类分析在学生成绩管理中的应用探析[J];福建电脑;2009年12期
13 张恒;刘波;陈颖红;于静;;基于SAS聚类分析的用户类型划分[J];科学咨询(决策管理);2010年04期
14 刘放;叶菲;;改进的聚类分析算法在高校人力资源管理中的应用[J];皖西学院学报;2011年02期
15 彭宏玉;柴旭光;陈晓纪;;基于层次迭代思想的聚类算法的研究[J];唐山学院学报;2011年03期
16 李欣宇;傅彦;;改进型的K-mediods算法[J];成都信息工程学院学报;2006年04期
17 余丽;;基于贝叶斯方法的Q型聚类算法研究[J];计算机与数字工程;2007年07期
18 吴思竹;;数据挖掘和知识发现领域热点主题分析[J];情报杂志;2010年07期
19 姜雷;;聚类分析在图书管理系统中的应用[J];情报探索;2010年10期
20 余瑞康;施润身;;聚类思想在贝叶斯算法中的应用[J];计算机工程与应用;2006年28期
中国重要会议论文全文数据库 前10条
1 楚红涛;寒枫;张燕;王婷;;基于数据流的挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
2 于健;陈子军;李霞;李炜;;一种新的多密度聚类算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 田小丽;郑康锋;钮心忻;;一种基于改进K-Medoids算法的网络攻击检测技术[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
4 潘玉奇;石冰;周劲;袁宁;;基于多维数据模型的聚类分析的研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
5 王静;汪晓刚;;一种新的保护原始数据隐私性的聚类算法[A];第十届中国科协年会论文集(三)[C];2008年
6 张昕;彭宏;郑启伦;;基于微粒群算法的聚类分析[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
7 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
8 刘剑;;基于数据挖掘聚类的节理统计分析方法[A];中国水力发电工程学会第四届地质及勘探专业委员会第一次学术交流会论文集[C];2008年
9 岑琴;赵建民;朱信忠;;基于Multi-Agent与数据挖掘的电子商务系统[A];2006年全国理论计算机科学学术年会论文集[C];2006年
10 沈勇;颜建军;王忆勤;许朝霞;刘国萍;夏春明;李福凤;燕海霞;郭睿;;基于数据挖掘的中医信息处理方法研究概述[A];中华中医药学会中医诊断学分会第十次学术研讨会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 李成安;分布式环境下聚类分析新方法的研究[D];浙江大学;2006年
2 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
3 张瑀;基于实验数据挖掘与细胞自动机的结构分析方法[D];哈尔滨工业大学;2010年
4 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
5 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
6 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
7 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
8 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
9 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
10 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
中国硕士学位论文全文数据库 前10条
1 贾文娟;基于hive分布式计算与数据挖掘的关联性营销的设计与实现[D];北京交通大学;2011年
2 徐嘉莉;基于多移动代理系统的个性化数据挖掘系统的研究[D];电子科技大学;2004年
3 王天真;基于神经网络的智能数据挖掘方法及应用研究[D];上海海事大学;2003年
4 于泓漪;道路交通事故原因的聚类分析[D];吉林大学;2005年
5 侯雪波;关联规则挖掘技术在电力市场营销分析中的应用[D];天津大学;2005年
6 武兆慧;基于遗传算法的聚类方法研究[D];山东师范大学;2006年
7 张兆中;WEB文本挖掘的聚类分析[D];山东科技大学;2005年
8 唐艺军;基于蚁群算法的数据挖掘应用研究[D];辽宁工程技术大学;2007年
9 罗贤缙;聚类分析在电力营销中的应用研究[D];华北电力大学(河北);2005年
10 王石;进化神经网络聚类技术及其在数据挖掘中的应用[D];山东大学;2005年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978