收藏本站
《浙江大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

分布式聚类算法研究与应用

杜晨阳  
【摘要】:随着信息技术的进步,数字图书馆的社会价值日益凸显,数字图书馆的建设受到了众多国家机构的高度重视。如何在现有资源的基础之上挖掘数字图书中的信息,改进基于内容的数字图书检索是数字图书馆研究的一个重要方面。本文主要研究了分布式聚类技术及在数字图书馆中的应用。 数据规模日益增长的今天,大规模数据处理非常有挑战性。许多并行算法已被提出,如基于MapReduce的分布式K-means聚类算法、分布式谱聚类算法等。近邻传播AP聚类能克服K-means聚类算法的局限性,但是对海量数据的处理性能不高。为了有效实现海量数据聚类,利用相似度稀疏化以及层次采样的方法,我们提出了两个基于AP聚类改进的并行算法。在层次采样的方法中先将数据点随机划分为规模相近的子集,并行地用AP聚类采样各子集,然后融合各子集的采样数据再次进行AP聚类,最终用产生的聚类代表为所有数据点指派聚类中心。在人工合成数据、人脸图像数据、IRIS数据等数据集上的实验表明,该算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间。 在研究了Hadoop中基于MapReduce的布式计算技术后,本文利用层次采样的方法设计了基于MapReduce的分布式AP聚类算法——DisAP,并验证了DisAP对数据规模的适应性。DisAP已应用到数字图书馆大规模数据挖掘与分析之中,我们设计了针对中草药数字图书的多媒体信息检索框架。该框架首先利用图像处理、特征抽取、关键词提取等技术分析数字图书的内容,‘然后利用爬虫技术收集互联网资源与这些信息进行语义关联,并利用分布式AP聚类技术处理图像数据生成视觉单词来表达图像的特征,最后在这些数据的基础上创建索引构建了数字图书馆中医药搜索引擎。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前2条
1 吴飞;庄越挺;;互联网跨媒体分析与检索:理论与算法[J];计算机辅助设计与图形学学报;2010年01期
2 ;Local and global approaches of affinity propagation clustering for large scale data[J];Journal of Zhejiang University(Science A:An International Applied Physics & Engineering Journal);2008年10期
中国硕士学位论文全文数据库 前2条
1 杨晨醒;数字图书馆协同过滤及GPU计算技术研究[D];浙江大学;2010年
2 施少敏;中医药多源搜索引擎推荐系统研究及其实现[D];浙江大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 韩强;;基于广义Hough变换的手写文档整词定位[J];安徽电子信息职业技术学院学报;2011年05期
2 程刚;郑小华;阳锋;徐祖舰;;三维全景视觉技术在农业机器人中的应用[J];安徽农业科学;2010年34期
3 何海燕;施培蓓;;基于改进AdaBoost算法的行人检测方法[J];安庆师范学院学报(自然科学版);2009年03期
4 吴慧兰;刘国栋;刘炳国;胡涛;浦昭邦;;ICF实验靶定位技术研究[J];半导体光电;2008年05期
5 陈京;袁保宗;刘渭滨;;多视点标定图像的交替迭代度量重建方法[J];北京交通大学学报;2012年02期
6 周峰;刘辉;李超峰;;SIFT算法在图像配准中的应用[J];办公自动化;2009年22期
7 刘彬;叶丽娜;;一种基于SIFT特征的序列图像拼接算法[J];兵工自动化;2009年06期
8 刘焕敏;王华;段慧芬;;一种改进的SIFT双向匹配算法[J];兵工自动化;2009年06期
9 彭勃;周文晖;刘济林;;基于Harris角点检测的立体视觉里程计[J];兵工学报;2007年12期
10 陈冰;赵亦工;李欣;;基于高斯尺度空间的末制导目标跟踪方法[J];兵工学报;2009年05期
中国重要会议论文全文数据库 前10条
1 刘善磊;张亮;;基于相位相关和SURF算法的关键帧实时匹配研究[A];江苏省测绘学会2011年学术年会论文集[C];2011年
2 隋树林;孙立宏;姚文龙;袁健;;融合改进UKF/SIFT信息的自主光学导航方法[A];第二十六届中国控制会议论文集[C];2007年
3 汪力;叶桦;夏良正;;利用特征点定位嘴巴[A];第二十六届中国控制会议论文集[C];2007年
4 ;Loop-closing By Using SIFT Features for Mobile Robots[A];第二十六届中国控制会议论文集[C];2007年
5 周凯;范瑞霞;李位星;;一种基于SIFT的MeanShift-粒子滤波融合跟踪算法[A];第二十九届中国控制会议论文集[C];2010年
6 ;Rapid Target Recognition and Tracking under Large Scale Variation Using Semi-Naive Bayesian[A];第二十九届中国控制会议论文集[C];2010年
7 ;A High-level Image Sequence Fusion Algorithm for Human Detection[A];第二十九届中国控制会议论文集[C];2010年
8 邹丽晖;陈杰;张娟;窦丽华;;一种基于时空域流形的视频序列图像拼接算法[A];第二十九届中国控制会议论文集[C];2010年
9 ;Machine Vision Based Flotation Froth Mobility Analysis[A];第二十九届中国控制会议论文集[C];2010年
10 孙明竹;赵新;程小燕;孙程;卢桂章;;面向复杂作业的微操作机器人关键技术研究[A];第二十九届中国控制会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 王玉全;基于全景视觉的移动机器人同时定位与地图创建方法研究[D];哈尔滨工程大学;2010年
2 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
3 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
4 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
5 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
6 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
7 王作为;具有认知能力的智能机器人行为学习方法研究[D];哈尔滨工程大学;2010年
8 肖洁;视觉注意模型及其在目标感知中的应用研究[D];华中科技大学;2010年
9 朱清波;序列图像三维重建方法研究[D];华中科技大学;2010年
10 田文;多视图图像的快速三维场景重建[D];华中科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 宋抗;压缩机活塞圆度误差数字检测系统研究[D];河南理工大学;2010年
2 陈忠翔;基于立体视觉的三维重建方法研究[D];南昌航空大学;2010年
3 雒燕飞;地质灾害应急地理信息数据库设计及其应用[D];山东科技大学;2010年
4 唐红梅;基于辐射与空间信息的遥感图像检索[D];山东科技大学;2010年
5 倪希亮;基于尺度不变特征的多源遥感影像配准[D];山东科技大学;2010年
6 贾伟洁;SAR影像与光学影像配准研究[D];山东科技大学;2010年
7 任天宇;自稳定航拍系统算法与设计[D];长春理工大学;2010年
8 李跃;三维运动估计在织物动态仿真中的应用[D];浙江理工大学;2010年
9 娄铮铮;sIB算法在图像无监督分类中的应用研究[D];郑州大学;2010年
10 王博;全景视觉智能移动机器人固有环境定位[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前2条
1 张鸿;吴飞;庄越挺;陈建勋;;一种基于内容相关性的跨媒体检索方法[J];计算机学报;2008年05期
2 吴飞;刘亚楠;庄越挺;;基于张量表示的直推式多模态视频语义概念检测[J];软件学报;2008年11期
【相似文献】
中国期刊全文数据库 前10条
1 唐西西;;一种新的混合遗传聚类算法[J];广西工学院学报;2006年03期
2 夏士雄;李文超;周勇;张磊;牛强;;一种改进的k-means聚类算法(英文)[J];Journal of Southeast University(English Edition);2007年03期
3 戴文华;焦翠珍;何婷婷;;基于并行遗传算法的K-means聚类研究[J];计算机科学;2008年06期
4 金欣;王晶;沈奇威;;分布式最小生成树聚类的设计与实现[J];计算机系统应用;2011年07期
5 厍向阳,薛惠锋,高新波;基于障碍物约束的遗传-中心点聚类算法研究[J];系统工程与电子技术;2005年10期
6 傅调平;刘玉树;;一种动态调整的混合蚂蚁聚类算法[J];北京理工大学学报;2006年06期
7 童树鸿,沈毅,刘志言;基于聚类分析的模糊分类系统构造方法[J];控制与决策;2001年S1期
8 厍向阳,彭文祥,薛惠锋;满足二维空间邻接条件的遗传聚类算法研究[J];计算机应用;2005年10期
9 周欢;黄立平;;基于SOM神经网络的C-均值聚类算法[J];计算机应用;2007年S1期
10 赵大伟;肖周芳;;一种改进的基于密度和样本数量的K-means算法[J];科技信息;2008年28期
中国重要会议论文全文数据库 前10条
1 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
4 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
5 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
6 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
7 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
8 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 娄冬梅;陈明;朱有娜;;一种基于密度的无参数聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
中国重要报纸全文数据库 前10条
1 杨向荣;文学与图像关系的学理思考[N];文艺报;2010年
2 刘琦;MapReduce:亚马逊云服务再添新援[N];中国计算机报;2009年
3 《网络世界》记者 周源;Platform MapReduce:专注企业级用户[N];网络世界;2011年
4 藏策;图文书的歧途[N];中国新闻出版报;2003年
5 ;视频数据中挖“宝”[N];计算机世界;2002年
6 中国人民大学 金元浦;影像时代的摄影文学[N];文艺报;2002年
7 王耀文;全球化语境中的汉语问题[N];中华读书报;2002年
8 何越峰;解说《关于电子专利申请的规定》[N];中国知识产权报;2004年
9 傅惟本;霓为衣兮风为马[N];中国新闻出版报;2003年
10 本报记者 赵凤华 通讯员 戴世勇 陶春明;本科生登上全国学术会议讲坛[N];科技日报;2008年
中国博士学位论文全文数据库 前10条
1 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
2 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
3 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
4 曹付元;面向分类数据的聚类算法研究[D];山西大学;2010年
5 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年
6 张鸿雁;基于DNA计算的聚类算法研究[D];山东师范大学;2011年
7 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
8 施建中;基于模糊聚类的非线性系统辨识研究[D];华北电力大学;2012年
9 孙鹏岗;聚类算法研究及其在网络模块性分析中的应用[D];西安电子科技大学;2011年
10 王伟;汉魏晋南北朝人物图像研究[D];中央美术学院;2012年
中国硕士学位论文全文数据库 前10条
1 杜晨阳;分布式聚类算法研究与应用[D];浙江大学;2011年
2 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年
3 毕晋芝;遗传优化的K均值聚类算法[D];太原理工大学;2010年
4 姚毓凯;一种有效的自适应网格密度聚类算法研究[D];兰州大学;2011年
5 武彩丽;基于规范切和分水岭的聚类算法研究[D];西安电子科技大学;2010年
6 叶冲轶;高维海量数据联合聚类算法的研究与应用[D];浙江工商大学;2010年
7 卜德云;自适应谱聚类算法的研究与应用[D];南京航空航天大学;2010年
8 石洪竺;量子进化聚类算法研究[D];西安电子科技大学;2010年
9 谷垒;聚类算法及其在电信收入保障系统中的应用研究[D];湖南大学;2010年
10 张珠玉;聚类算法及其在日志数据处理中的应用研究[D];山东师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026