收藏本站
收藏 | 论文排版

面向大数据的聚类挖掘算法研究

王玉雷  
【摘要】:大数据巨大的潜在价值促使大数据挖掘技术的产生,大数据挖掘是指从具有大规模性、高速性和多样性的数据源中挖掘出有价值知识的数据处理过程;如何准确、快速地从大数据中挖掘出有价值的知识是当今的研究热点。本文将面向大数据的聚类挖掘算法作为研究重点,以提高聚类挖掘算法的准确度和效率为研究目标,首先对传统聚类挖掘算法进行改进以提高准确度,然后对改进的聚类算法并行化以提高效率。为了提高聚类的准确度,本文在DBSCAN算法和k-means算法的基础之上,提出了基于密度的增量k-means聚类算法(Density-based Incremental k-means,DBIK-means)。DBIK-means算法首先计算数据点的密度,以密度不小于给定阈值的中心点以及在其密度范围内的点组合成各个基本簇;再依据两个簇中心点之间的距离合并基本簇;最后把没有划分到任意簇的点划分到与其距离最近的簇中。理论分析和基于KDD CUP 99数据集的实验结果表明了该算法能够发现任意形状的簇,对数据点的输入顺序以及参数不敏感,在时间开销仅略有增加的情况下可获得更高的聚类准确度,其总体性能优于k-means。为了提高DBIK-means算法的效率,降低算法的时间复杂度,本文利用分布式数据库来模拟共享存储空间,在云计算Hadoop平台上进行DBIK-means算法的并行化;通过仿真实验进行验证,实验结果表明DBIK-means算法适合大规模数据集的聚类挖掘。本文最后将DBIK-means聚类算法应用于电信客户的分类中,应用结果表明该聚类算法能够较为准确地将大量的电信客户自动划分到若干簇中,为电信运营商针对不同类型的客户制定不同的营销策略提供帮助。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李勇;王新颖;;聚类挖掘在电子商务中的应用[J];商场现代化;2007年25期
2 时念云;孔静;;基于语义和领域相关的聚类挖掘方法研究[J];微计算机应用;2008年11期
3 刘洪伟;石雅强;梁周扬;肖岳;;面向聚类挖掘的局部旋转扰动隐私保护算法[J];广东工业大学学报;2012年03期
4 陈平;宋玉蓉;蒋国平;;基于多维聚类挖掘的异常检测方法研究[J];计算机技术与发展;2012年07期
5 张文华;王新颖;;聚类挖掘在远程教育中的应用[J];唐山师范学院学报;2007年05期
6 王新颖;王向丽;张文华;;基于关联规则的聚类挖掘在远程教育中的应用[J];现代远距离教育;2008年04期
7 关莉莉;;银行卡客户群体聚类挖掘研究[J];微计算机信息;2008年30期
8 韩存鸽;;聚类挖掘在高校图书馆管理系统中的应用[J];重庆理工大学学报(自然科学);2012年11期
9 王东;罗可;;基于变异粒子群的聚类挖掘[J];计算机工程与应用;2011年21期
10 尹云飞,钟智;一种聚类挖掘软件数据的方法[J];河南科技大学学报(自然科学版);2004年02期
11 刘婧瑶;;基于聚类挖掘的安全阀试验位移数据处理[J];煤矿开采;2011年05期
12 廖定安;;一个基于聚类挖掘的信息协作分析模型[J];科技信息;2012年10期
13 倪巍伟;陈耿;吴英杰;孙志挥;;一种基于局部密度的分布式聚类挖掘算法[J];软件学报;2008年09期
14 张国荣;印鉴;;分布式环境下保持隐私的聚类挖掘算法[J];计算机工程与应用;2007年18期
15 刘振名;赵可新;刘振亮;;多维数量关联规则聚类挖掘研究[J];煤炭技术;2011年06期
16 郝先臣,刘小玲,周建华,赵海;模糊聚类挖掘方法在电子商务中的应用[J];东北大学学报;2001年04期
17 郝先臣,张德干,朱红艳,赵海;模糊聚类挖掘方法在电子商务中的应用研究[J];计算机工程;2002年01期
18 张昕尧;高宏;;一种新的属性图重叠聚类挖掘算法[J];智能计算机与应用;2012年05期
19 吴峰,施鹏飞;概念聚类挖掘方法的客户交易行为分析[J];微型电脑应用;2000年05期
20 刁静霓;尚学群;王淼;缪苗;;基于权值图的基因芯片数据差异双聚类挖掘算法[J];计算机应用研究;2011年01期
中国重要会议论文全文数据库 前2条
1 张德辉;唐世渭;杨冬青;马秀莉;姜力争;;一种在OLAP中保持聚类挖掘结果的有效方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 金妮;;一种基于数据仓库和OLAP技术的聚类挖掘系统[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
中国博士学位论文全文数据库 前2条
1 熊文;基于群智的特征选择、分类与聚类挖掘的研究[D];北京邮电大学;2010年
2 刘兵;时间序列与聚类挖掘相关技术研究[D];复旦大学;2006年
中国硕士学位论文全文数据库 前10条
1 王玉雷;面向大数据的聚类挖掘算法研究[D];南京邮电大学;2015年
2 李雄;面向大数据的聚类挖掘算法研究[D];南京邮电大学;2014年
3 刘宇;基于云计算的聚类挖掘算法及其应用研究[D];南京邮电大学;2014年
4 江哲雅;聚类挖掘在电信客户分类中的研究与应用[D];上海交通大学;2013年
5 董玮;可视化空间聚类挖掘算法的研究与应用[D];吉林农业大学;2012年
6 徐鹏;零售业顾客忠诚度的模型研究与聚类挖掘[D];大连交通大学;2008年
7 苏东海;基于加权向量提升的多尺度聚类挖掘算法[D];河北师范大学;2014年
8 管明君;Ramsey理论在聚类挖掘中的应用研究及实现[D];云南大学;2014年
9 颜小林;基于本体的Web页面聚类挖掘[D];太原理工大学;2007年
10 严卫;模糊聚类挖掘技术研究及其在高考志愿填报服务中的应用[D];中南大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978