收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于云计算的文本聚类算法研究

冯晓云  
【摘要】:随着互联网和通讯网的迅猛发展,网络文本已经成为信息的主要载体以及人们生活中不可或缺的主要信息来源。一方面,伴随着Web2.0时代的到来,网络上每天都在持续不断地产生大量的文本数据,并且这个速度远远地超过了人们对信息的利用能力。如何从这些大量的文本资源中获取有价值的信息和知识已经成为了一个亟待解决的重大问题;另一方面,普通的个人计算机由于硬件与软件的瓶颈限制,对于这些规模海量、多源异构、高噪声、强时效的数据根本无法在可承受的时间范围内进行处理分析,并且得到决策者需要的知识。而云计算模式的出现使得高性能的计算资源、软件资源、硬件资源和服务资源得到共享,现在已经成为信息领域的研究热点之一。因此,研究基于分布式平台的大文本集的聚类算法成为当下数据挖掘领域的一个研究热点。 在本论文中,我们首先实现了一种基于HIVE的分布式k-means算法的设计,先在Hadoop的分布式平台上利用HIVE对结构化的文本数据进行整合,然后对K-means聚类算法进行分析,发现分布式计算对于K-means算法的加速比是有一定的提高的,这也是近年来很多论文进行研究的算法。接着我们设计了基于Google实验室开发的一个分布式系统架构------HadoopCURE聚类算法,实验分成四部分进行,分别利用分布式平台来计算实验参数值、TFIDF值、文本间余弦距离和具体聚类算法,然后将不同大小数据集在不同个数的slave节点上运行的结果进行了对比,发现这种算法的伸缩性比较良好,更加适合大数据。在进行了两个实验后,论文又将CURE聚类算法的实验结果与基于HIVE的K-means算法的实验结果进行了对比,发现对于小数据,两者相差不大,但是对于大数据集,CURE聚类算法在数据伸缩性上明显优于基于HIVE的K-means算法,因此,我们发现前者更加地适用于大文本集的分布式研究。综上所述,我们通过分析利用UCI数据集进行实验得到的测评结果,发现在分布式平台上利用CURE算法进行聚类计算对于海量数据还是有很好的应用前景。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王伟;;文本自动聚类技术研究[J];情报杂志;2009年02期
2 郑吉;;粗糙谱聚类在文本挖掘中的应用[J];电脑知识与技术;2009年07期
3 赵万磊,王永吉,张学杰,李娟;一种优化初始中心点的K平均文本聚类算法[J];计算机应用;2005年09期
4 刘务华;罗铁坚;王文杰;;文本聚类技术的有效性验证[J];计算机工程;2007年01期
5 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期
6 刘泉凤;;ACTC:一种基于改进的蚁群算法的中文文本聚类算法[J];图书情报工作;2009年09期
7 张义军;刘泉凤;;DKTC:一种中文文本聚类方法[J];图书情报工作;2009年01期
8 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期
9 李伟;黄颖;;文本聚类算法的比较[J];科技情报开发与经济;2006年22期
10 谭营军;李翠霞;;加权模糊C均值文本聚类算法研究及仿真[J];计算机仿真;2011年05期
11 童健华;谭洪舟;;一种基于人工免疫网络的文本聚类算法[J];计算机工程与科学;2007年10期
12 叶阳东;张洁;刘东;;一种优化的顺序IB文本聚类算法[J];模式识别与人工智能;2008年03期
13 赵鸣;吴磊;;改进性的文本聚类算法研究[J];长江大学学报(自然科学版)理工卷;2009年02期
14 袁伟;朱山风;;基于距离学习的生物医学文本聚类算法研究[J];计算机应用与软件;2010年11期
15 郝剑;高茂庭;;基于模糊相似度的RPCL文本聚类算法[J];电脑知识与技术;2011年18期
16 门国尊;;用于信息检索的文本聚类技术[J];今日科苑;2008年20期
17 张玉芳;朱俊;熊忠阳;;改进的概率潜在语义分析下的文本聚类算法[J];计算机应用;2011年03期
18 傅华忠;茅剑;;基于DBSCAN聚类算法的Web文本挖掘[J];科技信息;2007年01期
19 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
20 周丽娟;;改进粒子群算法和蚁群算法混合应用于文本聚类[J];长春工业大学学报(自然科学版);2009年03期
中国重要会议论文全文数据库 前10条
1 季铎;蔡东风;郑伟;于水;;基于相似序列的增量式K均值聚类算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
4 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
5 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
6 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
7 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
9 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
4 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
5 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
6 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
7 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
8 冀进朝;针对多维混合属性数据的聚类算法研究[D];吉林大学;2013年
9 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年
10 张鸿雁;基于DNA计算的聚类算法研究[D];山东师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 谭颖;文本挖掘中的聚类算法研究[D];吉林大学;2009年
2 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
3 孙爽;基于语义相似度的文本聚类算法的研究[D];南京航空航天大学;2007年
4 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
5 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
6 冯晓云;基于云计算的文本聚类算法研究[D];南京理工大学;2014年
7 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
8 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
9 李海峰;基于概念格的Web文本聚类过程模型研究[D];吉林大学;2010年
10 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
中国重要报纸全文数据库 前10条
1 本报记者 侯益秀 张周;用分布式平台塑造电子商务[N];计算机世界;2000年
2 蔡幸波成功多媒体通信有限公司 李琳 中国移动通信集团浙江有限公司;CNGI分布式娱乐平台构建方案[N];计算机世界;2007年
3 本报记者 于翔;DB2走过1/4世纪[N];网络世界;2008年
4 清华大学 陈康郑纬民;云计算的三架马车:Google、亚马逊和IBM[N];计算机世界;2008年
5 郭洪锋;分布式的统一体[N];计算机世界;2003年
6 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
7 张琦;VPN接入解决校园网“三通”难题[N];中国电脑教育报;2007年
8 本报记者 赵齐;安世亚太:向国际学习 为中国创新[N];国际商报;2007年
9 周晓娟;OMAP引领多媒体无线“芯”时代[N];通信产业报;2008年
10 ;三项措施保护服务器[N];网络世界;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978