收藏本站
《江西理工大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop的社区发现算法并行化研究

赖柄州  
【摘要】:社区发现算法是研究复杂网络中社区结构的主要方法。随着网络规模爆发式的增长,传统单机、串行的社区发现算法已不适用于处理当前大规模的网络。Hadoop作为新兴的一种大数据处理技术,因其高扩展、高可靠、编程模型简单受到许多开发者的青睐。针对当前串行社区发现算法处理网络规模有限问题,本文结合Hadoop框架在大数据处理方面的优势提出两种串行社区发现算法并行化改造方案。针对Fast-Newman算法计算节点模块度复杂度比较高问题,本文提出基于Hadoop框架调度的Fast-Newman并行算法。并行化Fast-Newman算法存在的主要难点为在map函数中各节点无法获取其邻居节点的信息,故还需借助Web服务提供全局图信息。改进后的Fast-Newman算法将在map函数中并行的计算每个节点与其邻居节点合并后的模块度增量,在reduce函数中汇总找出模块度增量最大的两个节点并将该两节点合并,此为一次合并过程。合并后的结果重新作为map函数的输入,迭代执行map、reduce过程直到所有节点合并成一个社区。采用Ego-Facebook作为数据集,在仿真环境下实验结果表明并行化后的Fast-Newman算法具有较高的加速比。针对处理大规模网络难问题,本文提出基于Hadoop的Fast-Unfolding并行化算法PFU(Parallel-Fast-Unfolding)。该算法主要采用“分而治之”的思想,首先将大规模网络分区并各自合并,然后根据各分区合并结果重构网络,最后迭代合并重构网络直到社区结构不再发生变化。该并行化方案存在两个难点:一是如何保证分区后边连接信息不会丢失;二是分区完成后如何重构网络。针对上述两个难点,本文通过改进数据存储方式以及设计重构方案有效地解决了该问题。在真实网络和生成网络两种数据集上实验结果表明,PFU算法在保证准确率的基础上明显的提高了算法运行的效率,具有较好的扩展性。最后,根据map、reduce阶段输出的中间文件,用gephi软件对结果进行可视化提高了PFU算法的应用价值。
【学位授予单位】:江西理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13;O157.5

【参考文献】
中国期刊全文数据库 前10条
1 吴卫江;李沐南;李国和;;Louvain算法的并行化处理[J];计算机与数字工程;2016年08期
2 陈羽中;施松;朱伟平;於志勇;郭昆;;一种基于邻域跟随关系的增量社区发现算法[J];计算机学报;2017年03期
3 王昊宇;吴斌;;基于MapReduce的二分图社团发现[J];计算机应用与软件;2015年06期
4 孙霞;张敏超;冯筠;张蕾;何绯娟;;Hadoop框架下的多标签传播算法[J];西安交通大学学报;2015年05期
5 辛宇;杨静;谢志强;;基于随机游走的语义重叠社区发现算法[J];计算机研究与发展;2015年02期
6 毕娟;秦志光;;基于概率主题模型的社交网络层次化社区发现算法[J];电子科技大学学报;2014年06期
7 和亮;冯登国;苏璞睿;应凌云;杨轶;;基于社团并行发现的在线社交网络蠕虫抑制[J];计算机学报;2015年04期
8 马千里;张俊浩;;一种局部强化的多标签传播社区发现算法[J];计算机工程;2014年06期
9 武森;卢丹;冯小东;杜彦南;;基于大规模复杂网络社区发现的科研合著网络分析[J];中国科技论文;2014年04期
10 李冠辰;;一个基于hadoop的并行社交网络挖掘系统[J];软件;2013年12期
【共引文献】
中国期刊全文数据库 前10条
1 夏玮;杨鹤标;;改进的Louvain算法及其在推荐领域的研究[J];信息技术;2017年11期
2 郭子溢;刘立;叶牡丹;雷凯;;层次化社交网络中直销激励机制的研究与设计[J];计算机工程与设计;2017年08期
3 杨鹏;刘旋;董永强;冯程程;;内容中心移动自组网内容路由研究进展[J];电子科技大学学报;2017年03期
4 刘冰玉;王翠荣;王聪;王军伟;王兴伟;黄敏;;基于动态主题模型融合多维数据的微博社区发现算法[J];软件学报;2017年02期
5 金超;张龙波;王雷;安建瑞;怀浩;王晓丹;;一种基于链路预测的图聚类算法[J];山东理工大学学报(自然科学版);2017年01期
6 纪开祝;许冲;陈宝兴;;复杂网络重叠社区结构发现的演化算法研究[J];计算机工程与科学;2016年10期
7 李志宇;梁循;徐志明;齐金山;陈燕方;;DNPS:基于阻尼采样的大规模动态社会网络结构特征表示学习[J];计算机学报;2017年04期
8 张丽娜;戴灵鹏;匡泰;;一种适应于非完备标签数据和标签关联性的多标签分类方法[J];电信科学;2016年08期
9 宋琛;张贤坤;费松;荚佳;刘栋;;基于随机游走相似度矩阵的改进标签传播算法[J];计算机应用与软件;2016年08期
10 王志斌;黄蔚;;社交网络中个体价值分析[J];软件;2016年08期
【二级参考文献】
中国期刊全文数据库 前10条
1 王莉;程学旗;;在线社会网络的动态社区发现及演化[J];计算机学报;2015年02期
2 陈东明;刘健;王冬琦;徐晓伟;;基于MapReduce的分布式网络数据聚类算法[J];计算机工程;2013年07期
3 赵雅端;卢罡;赵英;山岚;;基于GPU的复杂网络社区挖掘算法并行计算[J];计算机应用研究;2013年08期
4 张晔;魏然;谷延锋;严萌;;基于小波变换的光谱异常特征分析及提取技术研究[J];新型工业化;2013年01期
5 和亮;冯登国;王蕊;苏璞睿;应凌云;;基于MapReduce的大规模在线社交网络蠕虫仿真[J];软件学报;2013年07期
6 饶君;吴斌;东昱晓;;MapReduce环境下的并行复杂网络链路预测[J];软件学报;2012年12期
7 王玙;高琳;;动态网络桥系数增量聚类算法[J];西安电子科技大学学报;2013年01期
8 张俊丽;常艳丽;师文;;标签传播算法理论及其应用研究综述[J];计算机应用研究;2013年01期
9 李志宏;王娜;周广刚;;国内管理科学领域高校间的学术论文合著网络分析[J];研究与发展管理;2012年04期
10 张玉涛;李雷明子;王继民;王建冬;;数据挖掘领域的科研合作网络分析[J];图书情报工作;2012年06期
【相似文献】
中国期刊全文数据库 前10条
1 程锦松;;迭代法的并行化[J];安徽大学学报(自然科学版);1997年03期
2 陈水福,孙炳楠,唐锦春;建筑风压数值模拟的几种并行化策略[J];计算力学学报;1998年02期
3 江岭;刘学军;汤国安;宋效东;;地形分析中坡度坡向算法并行化方法研究[J];计算机工程与科学;2013年04期
4 陈水福,孙炳楠,唐锦春;建筑绕流风场的并行化数值模拟[J];浙江大学学报(自然科学版);1998年05期
5 袁国兴,张宝琳;一类流体力学程序的向量化与并行化[J];数值计算与计算机应用;1995年04期
6 武继刚;合并选择算法及其并行化[J];兰州大学学报;1991年01期
7 赵晓雷;王敏;;快速傅里叶变换的并行化研究[J];渭南师范学院学报;2011年12期
8 倪安宁;高林杰;肖光年;;交通网络微观仿真并行化实现方法[J];系统管理学报;2014年04期
9 花嵘,傅游;计算机模拟薄气体流动的并行化方法研究[J];山东科技大学学报(自然科学版);2003年03期
10 欧阳智敏;郭海峰;全惠云;;基因表达式算法的并行化及其在函数发现中的应用[J];湖南师范大学自然科学学报;2007年02期
中国重要会议论文全文数据库 前9条
1 兰彤;冯玉才;肖伟器;;空间连接处理的并行化研究[A];数据库研究进展97——第十四届全国数据库学术会议论文集(上)[C];1997年
2 张雯;骆志刚;赵翔;王金华;靳新;;剪接比对软件sim4的并行化研究与实现[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
3 王本龙;龚凯;刘桦;;自由表面流动问题的并行化SPH方法求解[A];中国力学学会学术大会'2009论文摘要集[C];2009年
4 王峰;杨建俊;张天爵;许淑艳;;不同操作平台上的MCNP并行化计算[A];中国原子能科学研究院年报 2009[C];2010年
5 徐金秀;张天刚;;NCC区域气候模式算法分析及并行化实现[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
6 陈皓;罗月童;刘晓平;;基于MPI的光子映射算法并行化[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
7 曹琰;王清贤;魏强;尹中旭;;基于相容和搜索结合的并行约束求解方法[A];2013年中国智能自动化学术会议论文集(第五分册)[C];2013年
8 尹冀锋;;一种新的图象自适应增强算法[A];四川省通信学会一九九二年学术年会论文集[C];1992年
9 宁春平;田家玮;郭延辉;王影;张英涛;郑桂霞;刘研;;计算机辅助增强、分割算法在鉴别乳腺良、恶性肿块中的应用价值[A];中华医学会第十次全国超声医学学术会议论文汇编[C];2009年
中国重要报纸全文数据库 前10条
1 ;服务器软件的并行化革命[N];网络世界;2006年
2 谢涛;英特尔:忽视并行化软件后果很危险[N];电脑商报;2008年
3 记者 鲁媛媛;英特尔软件进入并行时代[N];网络世界;2009年
4 本报记者 郭涛;机器大数据也离不开Hadoop[N];中国计算机报;2013年
5 本报记者 王星;Hadoop引发大数据之战[N];电脑报;2012年
6 本报记者 邹大斌;Hadoop一体机降低大数据门槛[N];计算机世界;2012年
7 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年
8 乐天 编译;Hadoop:打开大数据之门的金钥匙[N];计算机世界;2012年
9 范范 编译;Hadoop用户可以使用多种搜索引擎[N];网络世界;2013年
10 波波 编译;Hadoop、Web 2.0为磁带带来新商机[N];网络世界;2013年
中国博士学位论文全文数据库 前10条
1 郭琦;异构多核可重构平台指令并行化关键问题研究[D];中国科学技术大学;2015年
2 程兴国;仿生算法的动态反馈机制及其并行化实现方法研究[D];华南理工大学;2013年
3 丁晓宁;面向CFD的交互式并行化技术研究[D];西北工业大学;2002年
4 宋亚奇;云平台下电力设备监测大数据存储优化与并行处理技术研究[D];华北电力大学(北京);2016年
5 张平;并行化编译器中并行程序自动生成和性能优化技术研究[D];解放军信息工程大学;2006年
6 傅游;稀薄气体Monte Carlo数值仿真并行化技术研究与实现[D];西北工业大学;2002年
7 董春丽;并行化编译中数据和计算的自动划分及优化技术研究[D];解放军信息工程大学;2007年
8 冯辉;网络化的并行与分布式优化算法研究及应用[D];复旦大学;2013年
9 许玉杰;云计算环境下海量数据的并行聚类算法研究[D];大连海事大学;2014年
10 李琰;基于猫群算法的高光谱遥感森林类型识别研究[D];东北林业大学;2015年
中国硕士学位论文全文数据库 前10条
1 赖柄州;基于Hadoop的社区发现算法并行化研究[D];江西理工大学;2017年
2 荣卓波;基于Hadoop的并行化算法实现及GPS数据实例分析[D];西南大学;2015年
3 赖梓昌;基于MPCore多核并行化的宽景视觉研究与实现[D];西南交通大学;2015年
4 杨睿;基于并行计算的基因序列快速比对方法研究[D];浙江大学;2015年
5 王心阳;一种基于MapReduce模型的并行化TSP算法研究[D];电子科技大学;2015年
6 赵正委;基于BSP模型的网络最大流算法的并行化研究与实现[D];电子科技大学;2014年
7 康少华;空间碎片探测软件的并行化及WCRT分析[D];北京理工大学;2015年
8 王向辉;嵌入式浏览器并行化的研究与设计[D];电子科技大学;2014年
9 孙洁;用于超电大散射计算MLFMA并行化及其关键问题的研究[D];电子科技大学;2014年
10 刘毅;LTE系统中关键算法的研究[D];电子科技大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026