收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

分布式聚类算法研究与应用

杜晨阳  
【摘要】:随着信息技术的进步,数字图书馆的社会价值日益凸显,数字图书馆的建设受到了众多国家机构的高度重视。如何在现有资源的基础之上挖掘数字图书中的信息,改进基于内容的数字图书检索是数字图书馆研究的一个重要方面。本文主要研究了分布式聚类技术及在数字图书馆中的应用。 数据规模日益增长的今天,大规模数据处理非常有挑战性。许多并行算法已被提出,如基于MapReduce的分布式K-means聚类算法、分布式谱聚类算法等。近邻传播AP聚类能克服K-means聚类算法的局限性,但是对海量数据的处理性能不高。为了有效实现海量数据聚类,利用相似度稀疏化以及层次采样的方法,我们提出了两个基于AP聚类改进的并行算法。在层次采样的方法中先将数据点随机划分为规模相近的子集,并行地用AP聚类采样各子集,然后融合各子集的采样数据再次进行AP聚类,最终用产生的聚类代表为所有数据点指派聚类中心。在人工合成数据、人脸图像数据、IRIS数据等数据集上的实验表明,该算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间。 在研究了Hadoop中基于MapReduce的布式计算技术后,本文利用层次采样的方法设计了基于MapReduce的分布式AP聚类算法——DisAP,并验证了DisAP对数据规模的适应性。DisAP已应用到数字图书馆大规模数据挖掘与分析之中,我们设计了针对中草药数字图书的多媒体信息检索框架。该框架首先利用图像处理、特征抽取、关键词提取等技术分析数字图书的内容,‘然后利用爬虫技术收集互联网资源与这些信息进行语义关联,并利用分布式AP聚类技术处理图像数据生成视觉单词来表达图像的特征,最后在这些数据的基础上创建索引构建了数字图书馆中医药搜索引擎。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张迎春;陈洁;张晨希;万忠;张燕平;;聚类在股票研究中的应用[J];计算机技术与发展;2006年04期
2 邹翔;岳振军;贾永兴;闵刚;;基于一乘准则的LMR在声音转换中的应用[J];军事通信技术;2008年01期
3 巩玉玺;罗容;;基于deep web数据库的个性化推荐系统[J];煤炭技术;2009年08期
4 朱嵬鹏;王士同;;基于空间模式聚类的彩色图像分割[J];计算机工程与应用;2009年34期
5 欧卫华;;基于重叠度增量的模糊聚类有效性函数[J];计算技术与自动化;2009年04期
6 周世兵;徐振源;唐旭清;;K-means算法最佳聚类数确定方法[J];计算机应用;2010年08期
7 刘燕驰;高学东;国宏伟;武森;;聚类有效性的组合评价方法[J];计算机工程与应用;2011年19期
8 耿新青;王正欧;;TGFCM:基于模糊聚类的中文文本挖掘的新方法[J];计算机工程;2006年05期
9 唐西西;;一种新的混合遗传聚类算法[J];广西工学院学报;2006年03期
10 肖小玲;李腊元;张翔;;提高支持向量机训练速度的CM-SVM方法[J];计算机工程与设计;2006年22期
11 沙秋夫;刘海宾;何希勤;刘向东;;基于邻域的模糊C-均值图像分割算法[J];计算机应用研究;2007年12期
12 陈秀敏;邹开其;闫忠文;祝美宁;付长青;杨艳萍;阎丹丹;;一种基于改进神经网络的高效模糊聚类算法[J];计算机应用;2008年05期
13 徐瑜;杨绍清;刘天华;;一种红外序列图像目标边缘检测方法[J];红外;2009年01期
14 查全民;汪荣贵;何畏;;基于量子遗传聚类的入侵检测方法[J];计算机应用研究;2010年01期
15 周世兵;徐振源;唐旭清;;新的K-均值算法最佳聚类数确定方法[J];计算机工程与应用;2010年16期
16 崔宝珍;王泽兵;潘宏侠;;改进的FCM聚类算法[J];机械管理开发;2010年04期
17 刘琼荪;范瑞雅;;确定高斯核参数的聚类方法[J];计算机工程与应用;2011年03期
18 张忠平;王浩;薛伟;夏炎;;动态滑动窗口的数据流聚类方法[J];计算机工程与应用;2011年07期
19 周世兵;徐振源;唐旭清;;基于近邻传播算法的最佳聚类数确定方法比较研究[J];计算机科学;2011年02期
20 刘昆;颜钢锋;;一种聚类算法在信道均衡中的应用[J];模式识别与人工智能;2002年01期
中国重要会议论文全文数据库 前10条
1 高翠芳;吴小俊;;基于二阶差分的聚类数自动确定方法[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
2 杨青;刘晔;张东旭;刘畅;;快速查找最优初始聚类数K的改进K-means算法[A];中国自动化学会控制理论专业委员会A卷[C];2011年
3 于剑;;聚类有效性与聚类算法的稳定性[A];2003年中国智能自动化会议论文集(下册)[C];2003年
4 左旺孟;朱颢;李乃民;李剑峰;张宏志;;基于流形学习的舌色分析与聚类研究[A];第四次全国中西医结合诊断学术研讨会论文集[C];2010年
5 蔡军;袁华鹏;陈金海;施伯乐;;一种基于相似性分析的聚类新算法:PDS算法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 饶金通;董槐林;姜青山;;基于孤立因子的层次聚类算法与应用[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 孙长银;李林峰;;基于模糊聚类方法的T-S模糊系统[A];2006中国控制与决策学术年会论文集[C];2006年
8 张勇斌;梁荣华;马杰;马玉书;;神经网络数据挖掘聚类优化算法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 付振中;赵合计;董玉振;;基于HSL颜色空间的模糊C均值彩色图像分割方法[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
10 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国博士学位论文全文数据库 前10条
1 宗瑜;聚类质量改进方法的研究[D];大连理工大学;2010年
2 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
3 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
4 于秀娟;加工过程的质量异常预测与诊断方法研究[D];吉林大学;2011年
5 邱浪波;基因芯片表达数据分析相关问题研究[D];国防科学技术大学;2007年
6 延皓;基于流量监测的网络用户行为分析[D];北京邮电大学;2011年
7 延皓;基于流量监测的网络用户行为分析[D];北京邮电大学;2011年
8 李艳灵;基于聚类的图像分割算法研究[D];华中科技大学;2009年
9 陈伟;群体智能算法及其在基因表达数据聚类中的应用[D];江南大学;2011年
10 覃桂敏;复杂网络模式挖掘算法研究[D];西安电子科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 陈奇明;基于投票策略聚类融合算法的研究和实现[D];安徽工业大学;2010年
2 张丽;基于智能算法的DNA聚类研究及应用[D];山东师范大学;2010年
3 张雪;可能性聚类有效性评价研究[D];哈尔滨理工大学;2014年
4 乐华;谱方法和信息熵在聚类中的应用[D];浙江大学;2014年
5 赵兴旺;基于信息熵的聚类个数确定方法研究[D];山西大学;2011年
6 王斐;云搜索中的搜索结果聚类技术研究[D];北京邮电大学;2013年
7 查丰;引力聚类及其应用研究[D];安徽大学;2011年
8 杨凌;聚类分析中聚类数的确定问题[D];武汉科技大学;2001年
9 吴爽;基于群智能机理的PPI网络功能模块聚类[D];陕西师范大学;2012年
10 陈爱平;基于Hadoop的聚类算法并行化分析及应用研究[D];电子科技大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978