收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

高维海量数据联合聚类算法的研究与应用

叶冲轶  
【摘要】: 联合聚类是新近的无监督的数据分析的范例,但是它变得日益流行是由于它发现隐藏的局部模式的潜力,和通常的无监督的运算法则比如说k-均值发现聚类不同。联合聚类的广泛部署需要面临数据转换、聚类的初始化、可扩展性等大量的实践的挑战。因此,这篇论文聚焦于使发展中的联合聚类方法更加成熟,并且它的最终目标是促使联合聚类作为各种各样的实际应用中不可缺少的无监督的分析工具。为了完成这样的目标,我们提出了三项明确的任务:(1)发展联合聚类运算法则使它具有功能性、适应性和扩展性;(2)联合聚类运算法则的扩展适应专门的应用需求;(3)联合聚类运算法则的应用广泛地存在于实际应用领域显现的难题中。 就联合聚类的运算法则来说,我们提出了改进的贝叶斯联合聚类算法。它允许在行和列中有混合的类,也就是说聚类的对象既属于一个类,也属于另一个类。这个算法是用指数族的概率分布理论去发现联合聚类生成的类。同时,为了自动估计行和列的类数,文中还提出了基于贝叶斯信息准则的类别数估计算法。 关于联合聚类的扩展,我们为一般的联合聚类的方法提出了基于逐步对应分析法的快速联合聚类的框架。它不需要把整个数据矩阵都放进内存里,这对于高维海量数据是至关重要的。这个框架可以使用k-均值、信息论和贝叶斯等不同的联合聚类运算法则。它在执行效率上优于上述运算法则,而与其它方法有差不多的正确率。 关于联合聚类的应用,我们扩展了贝叶斯联合聚类的功能来适应特别应用的需求。通过基于逐步对应分析法的贝叶斯联合聚类方法可以从高维海量数据中发现一致的联合聚类,它的目的是对行和列进行选择,然后通过贝叶斯联合聚类算法来同时聚类行和列。最后,我们阐述了该算法框架应用于各种各样仿真的和真实的数据得出的结果。 总之,我们介绍了联合聚类算法能发现隐藏的有用的信息,提出了算法的扩展来适应专门的需求,并且将它们应用于广阔的实践领域。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 顾黎萍;姜灵敏;;基于聚类的Web日志挖掘方法探析[J];商场现代化;2008年35期
2 王斌;;数据挖掘中数据流聚类算法的分析和比较[J];科技创新导报;2009年34期
3 徐鸽;陈江瑞;;聚类分析在客户关系管理中的应用研究[J];企业技术开发;2008年01期
4 郭红艳;谷保平;;改进k均值算法在网络入侵检测中的应用研究[J];计算机安全;2008年05期
5 孙志;李广;周永年;;一类基于RBF神经网络的系统辨识算法设计与仿真[J];科技创新导报;2009年05期
6 周慧芳;;自适应的k-means聚类算法SA-K-means[J];科技创新导报;2009年34期
7 王大将;孙洁;;数据流挖掘技术研究[J];统计与决策;2010年07期
8 许娟;;基于社会关系网络聚类的竞争情报系统[J];工程与建设;2010年06期
9 王咏梅;嵇晓;汪恒杰;冯安平;;一种改进的面向VLDB数据质量处理算法[J];科技创新导报;2009年02期
10 洪毅;石东贤;李锐;;支持客户细分的智能呼叫系统的研究与应用[J];科技创新导报;2009年17期
11 李强;赵茂先;杨龙飞;;基于k-Harmonic means聚类分析的物流中心选址模型研究[J];物流技术;2009年11期
12 陈敏;高学东;;并行DBSCAN聚类算法[J];中国管理信息化;2010年05期
13 钱晓东;肖强;罗海燕;;基于改进的RBF神经网络的人民币汇率预测研究[J];计算机工程与应用;2010年10期
14 吕琦;;对经济区域按资源位进行分类的算法比较[J];统计与决策;2011年13期
15 王茜;;基于SOM聚类的信息产品质量评价模型[J];大众科技;2007年05期
16 赵敏;;基于主色调颜色特征的图像检索[J];科技创新导报;2008年19期
17 张锡琴;冯敏敏;王俊华;;基于聚类分析的ATM机日存放货币数量预测[J];商场现代化;2008年23期
18 宋捷;党耀国;花增木;;基于灰色聚类的群决策方法研究[J];控制与决策;2010年10期
19 唐连生;程文明;梁剑;张则强;;应急物流配送问题的蚁群聚类算法研究[J];铁道运输与经济;2008年09期
20 马芳;王效岳;;基于数据挖掘技术的专利信息分析[J];情报科学;2008年11期
中国重要会议论文全文数据库 前10条
1 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
2 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
4 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
5 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
6 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
8 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 张望;王辉;;个性化服务中的并行K-Means聚类算法[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
10 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前10条
1 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
2 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
3 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
4 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年
5 张鸿雁;基于DNA计算的聚类算法研究[D];山东师范大学;2011年
6 曹付元;面向分类数据的聚类算法研究[D];山西大学;2010年
7 孙鹏岗;聚类算法研究及其在网络模块性分析中的应用[D];西安电子科技大学;2011年
8 梅娟;复杂生物网络聚类分析方法[D];江南大学;2010年
9 潘鸿飞;形状特征描述及聚类算法研究[D];安徽大学;2011年
10 彭柳青;高维高噪声数据聚类中关键问题研究[D];西安电子科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 叶冲轶;高维海量数据联合聚类算法的研究与应用[D];浙江工商大学;2010年
2 卜德云;自适应谱聚类算法的研究与应用[D];南京航空航天大学;2010年
3 石洪竺;量子进化聚类算法研究[D];西安电子科技大学;2010年
4 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年
5 张珠玉;聚类算法及其在日志数据处理中的应用研究[D];山东师范大学;2011年
6 姚毓凯;一种有效的自适应网格密度聚类算法研究[D];兰州大学;2011年
7 王帆;基于优化目标可调控的免疫聚类算法的研究[D];太原理工大学;2010年
8 李长进;基于蚁群算法的混合聚类算法研究[D];中国石油大学;2010年
9 武彩丽;基于规范切和分水岭的聚类算法研究[D];西安电子科技大学;2010年
10 张立;基于新闻评论数据的K-means聚类算法的研究[D];太原理工大学;2010年
中国重要报纸全文数据库 前10条
1 ;高维信诚打造企业移动商务引擎[N];人民邮电;2005年
2 记者王旭燕;进一步提高维稳防控工作能力[N];铜川日报;2009年
3 李秉诚 王春;英雄未名[N];科技日报;2005年
4 吴学文;花乡出“俊鸟”[N];农民日报;2001年
5 记者蒙景辉 通讯员马登奎;工会组织要不断提高维权能力[N];工人日报;2003年
6 安徽电力调度通信中心 袁林;征服电力调度海量数据[N];中国计算机报;2005年
7 ;MSP软件系统:海量数据的归档[N];中国计算机报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 任续烨;海量数据我来处理[N];中国计算机报;2004年
10 本报记者 何平;谁来帮助农民工提高维权能力[N];中国改革报;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978