收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向大数据集的递增聚类方法研究

伍艺  
【摘要】:随着信息技术的不断发展,数据挖掘、搜索引擎、大数据等领域受到了人们越来越多的关注。聚类技术,尤其是大数据背景下的聚类技术,在数据分析领域得到了广泛的应用,也成为了近年来专家学者们的研究热点。现有的聚类技术的研究主要侧重于静态的单一聚类算法,即在进行聚类之前,对整体数据集进行一次扫描。但是,在大数据背景下的很多应用场景,数据流本身是动态生成和读取的,也受限于空间和时间的限制,静态聚类算法有其一定的限制。另外,数据集本身的分布、聚类算法的参数选择等因素对聚类结果有着很大的影响,只使用单一的一种聚类算法对数据集进行分析存在较大的风险。在这样的背景下,本文主要进行了下述两个方面的工作:(1)本文提出了一种新的递增聚类算法——基于高斯混合模型树的递增聚类算法。随着数据流的读入,数据不断地被插入到高斯混合模型树,高斯混合模型树也随之自底向上的被构建。构建树的过程即递增聚类的过程。树的叶子节点对应着稠密的单高斯数据分布,树的非叶子节点对应着高斯混合模型分布。递增聚类树构建完毕之后,树的节点对应着聚类的结果。(2)本文提出了一种新的融合聚类算法——基于高斯混合模型和证据理论的融合聚类算法。在多组候选聚类结果的基础上,引入证据理论计算每个数据点在不同候选聚类结果下的置信度,通过新计算出的融合后的置信度确定该数据点的聚类归属。本文对提出的算法进行了详细的实验,分别在人工生成数据集、二维点数据集、真实数据集上进行实验,对聚类算法的准确性、时间复杂度、空间复杂度、稳定性、可扩展性、参数敏感性等重要指标进行了测试,并与现有的静态聚类算法、递增聚类算法和融合聚类算法进行比较。实验证明,本文提出的递增聚类算法和融合聚类算法取得了很好的效果,具有较强的实际应用意义。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 蔡元萃;陈立潮;;聚类算法研究综述[J];科技情报开发与经济;2007年01期
2 杨博;刘大有;金弟;马海宾;;复杂网络聚类方法[J];软件学报;2009年01期
3 陈梅兰;基于网格和密度聚类算法研究[J];计算机与现代化;2005年02期
4 闻扬,苑春法,黄昌宁;基于搭配对的汉语形容词-名词聚类[J];中文信息学报;2000年06期
5 王伟东,芦金婵,张讲社;基于视觉原理的密度聚类算法[J];工程数学学报;2005年02期
6 彭京;唐常杰;程温泉;石葆梅;乔少杰;;一种基于层次距离计算的聚类算法[J];计算机学报;2007年05期
7 陈钢,冯志勇,金辉;基于GT编码的零件聚类树的建立[J];中国制造业信息化;2003年06期
8 曹慧;;一种基于聚类的多数据库分类方法设计[J];网络安全技术与应用;2010年06期
9 刘芳,何飞;一种基于聚类树的增量式数据清洗算法[J];华中科技大学学报(自然科学版);2005年03期
10 曾广周;一个基于Gabrial图的聚类方法[J];信息与控制;1988年03期
11 周涛;陆惠玲;;数据挖掘中聚类算法研究进展[J];计算机工程与应用;2012年12期
12 陈黎飞;郭躬德;;属性加权的类属型数据非模聚类[J];软件学报;2013年11期
13 黄金花;;聚类算法的分析与比较[J];科技信息(科学教研);2008年13期
14 曾超群;李文科;张刚华;;一种改进的k-中心聚类算法研究[J];电脑与信息技术;2010年02期
15 王建会,申展,胡运发;一种实用高效的聚类算法[J];软件学报;2004年05期
16 谢坤武;陈世强;毕晓玲;;关联规则发现中的聚类方法[J];计算机科学;2007年08期
17 修宇;王士同;吴锡生;胡德文;;方向相似性聚类方法DSCM[J];计算机研究与发展;2006年08期
18 付春梅;刘俊宁;;Kmeans与系统聚类法结合在脑电图中的应用[J];科技信息(学术研究);2007年29期
19 谢明霞;郭建忠;陈科;;改进k中值聚类及其应用[J];烟台大学学报(自然科学与工程版);2010年03期
20 白雪;李江龙;;一种基于用户浏览矩阵的聚类算法[J];西北民族大学学报(自然科学版);2006年02期
中国重要会议论文全文数据库 前8条
1 钱卫宁;钱海蕾;周傲英;;构造准确的多粒度聚类树:一种交互式的方法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 钱卫宁;钱海蕾;周傲英;;聚类树合并——聚类超大规模数据库[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 万代红;齐明;万晓红;;分类技术DSCM聚类算法的C语言实现[A];增强自主创新能力 促进吉林经济发展——启明杯·吉林省第四届科学技术学术年会论文集(上册)[C];2006年
4 钱海蕾;钱卫宁;周傲英;;对于聚合聚类终止条件的研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 任家东;孟丽丽;张冬梅;;一种基于网格的改进的K-Means聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 周皓峰;袁晴晴;程尊平;施伯乐;;PHC:一个基于分层的快速聚类算法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
7 王仲君;莫春玲;;视觉原理的FCM聚类算法在复杂网络中的应用[A];2006全国复杂网络学术会议论文集[C];2006年
8 郑君君;李新光;祝一薇;刘建军;夏胜平;谭立球;;海量图像集中K近邻求解的高效算法[A];第十五届全国图象图形学学术会议论文集[C];2010年
中国博士学位论文全文数据库 前4条
1 晏华;交易数据的聚类分析[D];电子科技大学;2008年
2 王娜;基于客观聚类的模糊建模方法研究[D];上海交通大学;2009年
3 罗会兰;聚类集成关键技术研究[D];浙江大学;2007年
4 肖宇;聚类分析及其在图像处理中的应用[D];北京交通大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978