收藏本站
《南京理工大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

基于MapReduce的社区发现算法的设计与实现

王羽  
【摘要】:从人类社会进入互联网时代以来,各种社交网络服务平台,为人们提供了低成本的交流方式。但由于互联网信息的传播具有隐蔽性,网络间谍、水军等网络敌对势力会利用其获取或者传播信息。所以我国亟需针对庞大数据量的社交网站进行社区发现以监控可能存在的敌对势力用户社区。社区发现算法一般分成两类,一类是通过聚类等数据挖掘算法进行社区发现;一类是根据图论相关知识,将用户直接抽象为图中的节点,用户之间的关系抽象为图中的边,从而直接对网络拓扑进行社区发现。由于传统单机运行的社区发现算法不能够满足计算复杂度,存储容量等方面的要求,故其不适用于处理大数据量的社交网络。为了提高算法的计算效率,使得社区发现算法能够应用到大数据量的社交网络中,需要在分布式平台上实现社区发现算法。分布式开源计算平台Hadoop中MapReduce框架能够针对大数据量进行处理。本文的工作重点总结如下:1.深入了解MapReduce编程模型,分析了几种传统的聚类算法,针对KMeans算法在初始聚类中心选择的随机性以及孤立节点对聚类效果的影响等所存在的问题,进行了改进,提出了初始Canopy的KMeans(KMeans with Canopy based on MapReduce,MRKC)算法,并在MapReduce框架上进行了实现。在此基础上,分析聚类应用于社区发现的整体流程,实现了从社交网络上获取用户留言数据,并对用户进行聚类的相关算法。2.针对留言获取可能存在的权限导致信息不全等问题,提出了基于结构的社区发现算法(PREP,COREP and POSTP,MRPCP)。根据用户的好友关系网络的信息,计算好友间相似度,对好友关系拓扑进行分割,最后通过计算连通子图来划分社区。3.研究了拓扑布局的相关算法,实现了基于力导引等拓扑点线结构布局算法和社区发现结果的可视化展现。4.设计并实现了基于MapReduce的社区发现算法原型实验系统,并对本文研究的算法进行了实验验证。通过对本文提出的算法与经典的社区发现算法在公开数据集上进行对比实验,验证了本文设计算法具有较高的准确率以及较好的拓展性,同时将该算法部署并运行在Hadoop集群上,通过对大量数据进行计算处理,验证了算法具有较好的加速比,适用于大规模社交网络数据的社区发现。
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前3条
1 唐艳琴;潘志松;吴君青;;基于MapReduce的快速Newman并行算法[J];华中科技大学学报(自然科学版);2012年S1期
2 黄发良;黄名选;元昌安;姚志强;;网络重叠社区发现的谱聚类集成算法[J];控制与决策;2014年04期
3 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期
中国博士学位论文全文数据库 前1条
1 方冰;论如何利用挖掘社交资讯来改进推荐系统[D];中国科学技术大学;2013年
中国硕士学位论文全文数据库 前1条
1 汤军;基于MapReduce的并行图序列社区挖掘算法研究[D];南京航空航天大学;2012年
【共引文献】
中国期刊全文数据库 前10条
1 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期
2 左国才;周荣华;符开耀;;基于DBSCAN算法的电信客户分类的应用研究[J];北京联合大学学报(自然科学版);2012年03期
3 李晓方;武仲科;樊亚春;周明全;柳勇光;;一种新的用于三维检索的快速邻域搜索方法[J];北京师范大学学报(自然科学版);2011年05期
4 章林柯;崔立林;;潜艇机械噪声源分类识别的小样本研究思想及相关算法评述[J];船舶力学;2011年08期
5 孙英娟;杨柳;何昆鸟;;属性离散化算法研究[J];长春师范学院学报(人文社会科学版);2009年12期
6 陈庆枝;陈国龙;郭文忠;陈仕涛;;信息安全评估日志数据的一种混合聚类算法[J];重庆工学院学报(自然科学版);2009年10期
7 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
8 陆娟;汤国安;张宏;蒋平;吴伟;;犯罪热点时空分布研究方法综述[J];地理科学进展;2012年04期
9 冯晓蒲;张铁峰;;基于实际负荷曲线的电力用户分类技术研究[J];电力科学与工程;2010年09期
10 钱宁;胡永东;吴国新;;P2P网络资源搜索中的用户行为模型[J];东南大学学报(自然科学版);2011年04期
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
3 徐红波;基于空间填充曲线高维空间查询算法研究[D];哈尔滨理工大学;2010年
4 尹可挺;Internet环境中基于QoS的Web服务组合研究[D];浙江大学;2010年
5 皋军;智能识别中的降维新方法及其应用研究[D];江南大学;2010年
6 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
7 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年
8 陈彬;面向DEVS的多范式建模与仿真关键技术研究与实现[D];国防科学技术大学;2010年
9 高翠芳;模糊聚类新算法及应用研究[D];江南大学;2011年
10 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘文昊;基于模糊聚类和纹版辅助的织物疵点检测算法研究[D];浙江理工大学;2010年
2 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
3 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
4 刘萍;软件体系结构恢复的研究与实现[D];大连理工大学;2010年
5 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
6 李丹丹;基于权重设计的聚类融合算法研究及应用[D];辽宁工程技术大学;2009年
7 刘琼;基于群体智能的聚类算法研究[D];长沙理工大学;2010年
8 邵帅;基于数据场的聚类可视化算法研究与应用[D];西北民族大学;2010年
9 孙大朋;入侵检测中模糊C-均值聚类算法研究[D];哈尔滨理工大学;2010年
10 王瑛;基于模糊聚类的入侵检测算法研究[D];江西理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前4条
1 李洁;高新波;焦李成;;基于特征加权的模糊聚类新算法[J];电子学报;2006年01期
2 解(亻刍);汪小帆;;复杂网络中的社团结构分析算法研究综述[J];复杂系统与复杂性科学;2005年03期
3 黄发良;;信息网络的社区发现及其应用研究[J];复杂系统与复杂性科学;2010年01期
4 黄发良;肖南峰;;基于线图与PSO的网络重叠社区发现[J];自动化学报;2011年09期
中国硕士学位论文全文数据库 前1条
1 郝立杰;分布式并行计算中MPI标准的初步实现[D];北京化工大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 葛磊;武芳;王鹏波;张冬林;;3维建筑综合中基于最小特征的面平移算法[J];测绘科学技术学报;2009年02期
2 骆雯,孙延明,陈振威,陈锦昌;判断点与封闭多边形相对关系的改进算法[J];机械;1999年03期
3 李林;卢显良;;一种基于切割映射的规则冲突消除算法[J];电子学报;2008年02期
4 刘巧玲;张红英;林茂松;;一种简单快速的图像去雾算法[J];计算机应用与软件;2013年07期
5 林亚平,杨小林;快速概率分析进化算法及其性能研究[J];电子学报;2001年02期
6 章郡锋;吴晓红;黄晓强;何小海;;基于暗原色先验去雾的改进算法[J];电视技术;2013年23期
7 杨铁军;靳婷;;一种动态整周模糊值求解算法及其仿真分析[J];系统工程与电子技术;2007年01期
8 周秀玲;郭平;陈宝维;王静;;几种计算超体积算法的比较研究[J];计算机工程;2011年03期
9 吴一戎,胡东辉,彭海良;Chirp Scaling SAR成象算法及其实现[J];电子科学学刊;1995年03期
10 王贵竹;一种产生单向分解值的算法[J];安徽大学学报(自然科学版);2001年03期
中国重要会议论文全文数据库 前10条
1 尹冀锋;;一种新的图象自适应增强算法[A];四川省通信学会一九九二年学术年会论文集[C];1992年
2 宁春平;田家玮;郭延辉;王影;张英涛;郑桂霞;刘研;;计算机辅助增强、分割算法在鉴别乳腺良、恶性肿块中的应用价值[A];中华医学会第十次全国超声医学学术会议论文汇编[C];2009年
3 谢丽聪;;SVB查询改写算法的改进[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 郑存红;;复杂背景下相关跟踪算法研究及DSP实现[A];中国光学学会2010年光学大会论文集[C];2010年
5 杨文杰;吴军;;RFID抗冲突算法研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
6 高山;毕笃彦;魏娜;;一种基于UPF的小目标TBD算法[A];第十四届全国图象图形学学术会议论文集[C];2008年
7 周磊;张卫华;王晓奇;张军;;基于流水算法的智能路障机器人设计[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
8 潘巍;李战怀;陈群;索博;李卫榜;;面向MapReduce的非对称分片复制连接算法优化技术研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
9 李伟伟;蔡康颖;郑新;王文成;;3D模型中重复结构的多尺度快速检测算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
10 杨任尔;陈恳;励金祥;;基于棱边方向检测的运动自适应去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
中国重要报纸全文数据库 前1条
1 国泰君安资产管理部;“算法交易”是道指暴跌罪魁祸首?[N];上海证券报;2010年
中国博士学位论文全文数据库 前10条
1 冯辉;网络化的并行与分布式优化算法研究及应用[D];复旦大学;2013年
2 许玉杰;云计算环境下海量数据的并行聚类算法研究[D];大连海事大学;2014年
3 李琰;基于猫群算法的高光谱遥感森林类型识别研究[D];东北林业大学;2015年
4 陈加顺;海洋环境下聚类算法的研究[D];南京航空航天大学;2014年
5 张冬丽;人工蜂群算法的改进及相关应用研究[D];燕山大学;2014年
6 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
7 王征;分布式互斥算法的研究与实现[D];电子科技大学;2007年
8 王艳娇;人工蜂群算法的研究与应用[D];哈尔滨工程大学;2013年
9 杨世品;P系统优化算法及应用研究[D];浙江大学;2013年
10 张毅;群智能算法的改进及其在相关领域中的应用[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 姚鑫宇;EMD去噪与MUSIC算法在DOA估计中的联合应用[D];昆明理工大学;2015年
2 陆进;面向含噪数据聚类相关算法的研究[D];复旦大学;2014年
3 李家昌;基于能量约束的超声图像自动分割算法[D];华南理工大学;2015年
4 陈坚;基于密度和约束的数据流聚类算法研究[D];兰州大学;2015年
5 高健;基于Zynq7000平台的去雾算法研究及实现[D];南京理工大学;2015年
6 顾磊;基于Hadoop的聚类算法的数据优化及其应用研究[D];南京信息工程大学;2015年
7 杨燕霞;基于Hadoop平台的并行关联规则挖掘算法研究[D];四川师范大学;2015年
8 王羽;基于MapReduce的社区发现算法的设计与实现[D];南京理工大学;2015年
9 许振佳;流式数据的并行聚类算法研究[D];曲阜师范大学;2015年
10 董琴;人工蜂群算法的改进与应用[D];大连海事大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026