收藏本站
《北京邮电大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop平台的数据分析和应用

姜文  
【摘要】:面对互联网上的海量数据,单台主机已无法满足其存储和计算要求,使用分布式存储和分布式计算去分析这些数据,并挖掘其内在价值成为了必然的趋势。其中Hadoop是应用较多的开源分布式存储和计算框架之一。 Hadoop在很多大型网站上都已经得到了应用,在这些应用中,比较常见的是分析服务器或用户日志。同时Hadoop在部分图论的实现中也得到了应用。这两种应用的数据量大,并且符合一次写入、多次读取的处理条件,正好符合了分布式存储和计算的适用场景。 首先,本文详细分析了Hadoop存储系统设计原则、分布式计算模型的计算流程和Hadoop的存储和计算特点。在Hadoop平台上,对搜索引擎用户查询日志中的URL-点击频度关系、查询词相关性方案进行设计和实现;同时对图论中的分布式单源最短路径算法以及网页质量评估算法,在该平台上进行设计和实现。根据以上方案的设计和实现经验以及Hadoop系统的特点,对Map/Reduce分布式程序的设计和性能优化方法进行详细的分析。 然后,本文搭建了实验环境,在Hadoop平台下,对日志数据统计排序方案以及分布式单源最短路径方案进行实验分析;对查询词相关性计算方案以及网页质量评估算法进行实现和结果验证;对本文的本地聚集设计方案以及Hadoop系统设计中的移动计算设计原则进行实验结果对比和验证。 最后,对本文所做工作以及Hadoop分布式存储和计算框架尚存在的问题进行总结,提出可以进一步改进和研究的内容。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP274

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 王博;陈莉君;;Hadoop远程过程调用机制的分析和应用[J];西安邮电学院学报;2012年06期
中国硕士学位论文全文数据库 前9条
1 黄钟元;Hadoop平台下的关系数据库查询与实现[D];复旦大学;2011年
2 刘彤;基于Hadoop的数据分析系统设计和实现[D];北京邮电大学;2012年
3 徐娟娟;基于NoSQL的Web日志分析系统的设计[D];安徽理工大学;2012年
4 李林;基于hadoop的海量图片存储模型的分析和设计[D];杭州电子科技大学;2011年
5 王霁欣;一种基于Hadoop/MapReduce的可扩展存储系统架构研究[D];华中科技大学;2012年
6 杨浩;云GIS空间数据存储管理和共享研究[D];中国地质大学(北京);2013年
7 郭德锋;基于Hadoop的云平台模型的性能研究与优化[D];西北大学;2013年
8 宋帅;基于NoSQL的电子政务系统的研究与设计[D];武汉理工大学;2013年
9 张宣;物联网与Dragon-Lab实验云的融合研究[D];石家庄铁道大学;2013年
【参考文献】
中国期刊全文数据库 前2条
1 王润华;;基于Hadoop集群的分布式日志分析系统研究[J];科技信息;2009年15期
2 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期
【共引文献】
中国期刊全文数据库 前10条
1 王建冬;王继民;;基于日志挖掘的高校用户期刊数据库检索行为研究[J];北京大学学报(自然科学版);2012年01期
2 杨振东;王晋川;郑冀;刘科;;面向云计算的油料供应管理系统构架[J];重庆理工大学学报(自然科学);2011年09期
3 胡光民;周亮;柯立新;;基于Hadoop的网络日志分析系统研究[J];电脑知识与技术;2010年22期
4 徐静;;图像搜索引擎的进步与应用现状分析[J];电子商务;2011年04期
5 孙福权;张达伟;程勖;刘超;;基于Hadoop企业私有云存储平台的构建[J];辽宁工程技术大学学报(自然科学版);2011年06期
6 肖卓磊;;搜索引擎作弊及反作弊技术探究[J];阜阳师范学院学报(自然科学版);2011年04期
7 康海燕;陈然;苑晓姣;李清华;;基于Android防火墙日志系统的研究与实现[J];北京信息科技大学学报(自然科学版);2012年04期
8 何攀;刘露;陈荦;王祖文;;基于用户偏好的地理计算应用检索[J];兵工自动化;2012年10期
9 余长杰;;基于成功要素的搜索引擎优化模型研究[J];计算机光盘软件与应用;2013年16期
10 王晓春;李生;杨沐昀;赵铁军;;查询会话中的用户行为分析[J];哈尔滨工业大学学报;2011年05期
中国重要会议论文全文数据库 前7条
1 彭林;张小强;刘德峰;谢伦国;田祖伟;;一种挖掘多核处理器存储级并行的算法[A];第15届全国信息存储技术学术会议论文集[C];2008年
2 李东园;白宇;蔡东风;;基于用户日志分析的查询扩展研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 张磊;李亚楠;王斌;李鹏;蒋在帆;;网页搜索引擎查询日志的session划分研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 王晓春;杨沐昀;李生;赵铁军;张志涛;;中文搜索引擎日志中查询分析的研究[A];第五届全国信息检索学术会议论文集[C];2009年
5 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
6 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年
7 马莎莎;;文献检索过程的认知态及与之相关的显著性标引框架[A];中国煤炭学会成立五十周年高层学术论坛论文集[C];2012年
中国博士学位论文全文数据库 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 付雄;利用程序分析和优化提高Cache性能[D];中国科学技术大学;2007年
3 陈红涛;基于搜索日志的用户行为研究及应用[D];北京邮电大学;2008年
4 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
5 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
6 宋强;中国互联网低俗内容监管研究[D];北京邮电大学;2012年
7 戴丽娜;从营销的终点到营销的起点[D];复旦大学;2012年
8 牛小飞;基于遗传规划和集成学习的Web Spam检测关键技术研究[D];山东大学;2012年
9 张乃静;基于林业科学数据的语义检索研究[D];中国林业科学研究院;2013年
10 孟玲玲;基于WordNet的语义相似性度量及其在查询推荐中的应用研究[D];华东师范大学;2014年
中国硕士学位论文全文数据库 前10条
1 张琪;网络舆论被主流媒体引导的必要性和可行性研究[D];上海外国语大学;2010年
2 吴世勇;基于聚类分析的搜索引擎自动性能评价研究[D];江西师范大学;2010年
3 许明敏;基于维基百科和web共现分析的概念关系网构建系统研究与实现[D];华东师范大学;2011年
4 宋健;基于主题挖掘和时间窗口划分的兴趣推荐技术研究[D];华东师范大学;2011年
5 奚杰;基于WEB日志的用户行为分析与挖掘[D];东华大学;2011年
6 朱培焱;汉英跨语言网址搜索引擎的设计与实现[D];西安电子科技大学;2010年
7 詹圣君;基于用户行为日志分析的搜索引擎排序算法研究[D];湖北工业大学;2011年
8 陈凯;搜索引擎有关排序算法研究[D];武汉理工大学;2011年
9 陈娟;基于JDM的移动互联网用户行为分析[D];武汉理工大学;2011年
10 张立;文本搜索引擎的探究与设计[D];华南理工大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 李珺;;基于Hadoop云计算模型探究[J];信息安全与技术;2011年06期
2 宋凯;耿义良;;云存储技术[J];才智;2010年04期
3 王佳;;WSN中基于改进蚁群算法的移动Agent路径规划[J];传感技术学报;2011年04期
4 蒋景瞳,刘若梅,周旭,贾云鹏;国家标准《地理信息元数据》研制与实现若干问题[J];地理信息世界;2003年05期
5 祝方雄;城市地理信息系统中元数据标准的研究[J];城市勘测;2001年03期
6 闫银发;公茂法;汤元信;;基于ZigBee技术的无线网络抄表系统设计[J];电测与仪表;2006年06期
7 周成虎;地理信息系统的透视──理论与方法[J];地理学报;1995年S1期
8 拓守恒;;云计算与云数据存储技术研究[J];电脑开发与应用;2010年09期
9 唐箭;;云存储系统的分析与应用研究[J];电脑知识与技术;2009年20期
10 李艳华;;云计算技术研究现状综述[J];电脑知识与技术;2009年22期
中国博士学位论文全文数据库 前2条
1 赵铁柱;分布式文件系统性能建模及应用研究[D];华南理工大学;2011年
2 吴金华;空间数据仓库的元数据研究[D];武汉大学;2003年
中国硕士学位论文全文数据库 前10条
1 杨岳;非结构化数据统一访问平台及索引技术研究[D];解放军信息工程大学;2010年
2 杨义彬;基于云计算的分布式处理框架的研究与设计[D];电子科技大学;2011年
3 贾文娟;基于hive分布式计算与数据挖掘的关联性营销的设计与实现[D];北京交通大学;2011年
4 李志国;基于J2EE的元数据注册管理系统的设计与实现[D];北京交通大学;2011年
5 杜勇;基于HDFS的云数据备份系统的设计与实现[D];吉林大学;2011年
6 王海波;云计算中数据库的关键问题研究与实现[D];吉林大学;2011年
7 任豪栋;基于Web日志挖掘的原型系统研究与实现[D];西华大学;2011年
8 苗秀;基于云计算平台的移动IPTV系统设计及负载均衡技术的研究[D];北京邮电大学;2011年
9 白云龙;基于Hadoop的数据挖掘算法研究与实现[D];北京邮电大学;2011年
10 施岩;云计算研究及Hadoop应用程序的开发与测试[D];北京邮电大学;2011年
【二级引证文献】
中国期刊全文数据库 前2条
1 刘军霞;王磊;周喜;;面向海量数据的电子政务云平台研究[J];计算机与现代化;2013年07期
2 孙韩林;;一种基于云计算的网络流量分析系统结构[J];西安邮电大学学报;2013年04期
中国硕士学位论文全文数据库 前6条
1 李玉华;基于Hadoop的CDMA分组域海量数据处理模型的研究[D];武汉邮电科学研究院;2013年
2 薛文娟;基于层次聚类的日志分析技术研究[D];山东师范大学;2013年
3 朱朝鹏;基于云计算的远程诊断关键技术研究[D];郑州大学;2013年
4 刘培松;云计算环境下任务调度和资源分配策略的研究[D];华东师范大学;2013年
5 任洒苗;基于云计算的WebGIS关键技术研究[D];西安电子科技大学;2013年
6 钱鑫;数据密集型计算环境下聚类算法的研究[D];山东理工大学;2013年
【相似文献】
中国期刊全文数据库 前10条
1 魏云刚;张春悦;孙波;邱茜;战乃新;车丽美;;基于资源分类信息树的教育资源元数据分布式存储[J];现代教育技术;2010年04期
2 王慧;申家双;陈冬阳;邓雪清;;一种高性能的大区域遥感影像管理模型[J];海洋测绘;2006年03期
3 郑胜;郝毫毫;;基于贝努利大数定律的数据分布算法[J];计算机工程;2009年19期
4 孟庆伟;;云计算技术及其电信应用[J];电信快报;2010年07期
5 卢益阳;;分布式存储系统调查[J];企业科技与发展;2011年16期
6 刘广涛;舒继武;郑纬民;;可扩展的分布式邮件系统的研究与实现[J];小型微型计算机系统;2005年12期
7 王大涛;姜月秋;;一种适用于集群的高可用存储模型的研究[J];沈阳理工大学学报;2007年02期
8 邢继元;张义德;;计算机存储技术的发展现状和趋势[J];科协论坛(下半月);2008年02期
9 赵颖斯;刘云;;BBS舆情系统的数据采集方法[J];电信快报;2008年12期
10 高波;郭朝珍;丁善镜;;基于GML矢量图层分割的空间数据分布式协同处理的研究[J];计算机应用;2009年01期
中国重要会议论文全文数据库 前10条
1 程果;陈荦;景宁;赵亮;左怀玉;;一种遥感影像的层次化组织分布式存储管理方法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
2 龚尚福;朱宇;李占利;;大型综合类数字图书馆解决方案[A];第十四届全国煤矿自动化学术年会暨中国煤炭学会自动化专业委员会学术会议论文集[C];2004年
3 姜继忱;陈钢;;P2P之路——缔造“分布式对等”的Internet3.0[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(下)[C];2003年
4 郭建忠;李宏伟;;多尺度地理空间数据分布式存储与管理若干问题的研究[A];地理空间信息技术与应用——中国科协2002年学术年会测绘论文集[C];2002年
5 张彦;刘欣然;徐慧彬;;一种基于虚拟计算环境的分布式存储体系结构[A];2009全国计算机网络与通信学术会议论文集[C];2009年
6 杜希奇;王学俭;卜忱;;动态数据神经网络建模技术[A];探索创新交流--中国航空学会青年科技论坛文集[C];2004年
7 郭荣坤;高鹏翼;;人工神经网络(ANN)在测井储层评价中应用[A];1996年中国地球物理学会第十二届学术年会论文集[C];1996年
8 李于锋;张亚林;赵强;;有限元计算框架PANDA中的并行机制[A];中国计算力学大会'2010(CCCM2010)暨第八届南方计算力学学术会议(SCCM8)论文集[C];2010年
9 何涛;黄渊;李爱波;;基于ADSP-TS201的雷达转角处理设计方法[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年
10 杨爱民;刘韧;赵广华;崔玉环;;集群系统中基于MPI的并行GMRES(m)计算通信的研究及应用[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
中国重要报纸全文数据库 前10条
1 ;存储2.0时代渐行渐近[N];网络世界;2007年
2 黄言;联想服务器护航CDN网络大提速[N];中国企业报;2008年
3 山东胶南张家楼教委 杨维春;数字图书馆的待解难题[N];中国电脑教育报;2006年
4 李梅;存储2.0,基于Web的存储迎面而来[N];计算机世界;2007年
5 刘学习;存储技术往哪儿走?[N];计算机世界;2007年
6 本报记者  周蓉蓉;做信息化的“司务长”[N];计算机世界;2006年
7 中兴通讯;云存储铺就海量数据之路[N];通信产业报;2011年
8 仰一凡、王哲;应用校园网生存和发展之本[N];中国计算机报;2002年
9 ;存储系统的挑战[N];网络世界;2006年
10 ;千台联想服务器护航CDN“大提速”[N];人民邮电;2008年
中国博士学位论文全文数据库 前10条
1 赵浩天;基于网络编码的分布式存储容错及扩容问题研究[D];中国科学技术大学;2013年
2 胡燏翀;基于网络编码的分布式存储容错机制研究[D];中国科学技术大学;2010年
3 杨磊;基于P2P结构的广域分布式存储相关技术研究[D];湖南大学;2013年
4 魏青松;大规模分布式存储技术研究[D];电子科技大学;2004年
5 岳利群;基于分布式存储的虚拟地理环境关键技术研究[D];解放军信息工程大学;2011年
6 姜春茂;基于移动P2P的分布式存储和传输机制研究[D];哈尔滨工程大学;2013年
7 周旭;面向Internet的大规模分布式存储技术研究[D];电子科技大学;2004年
8 万武南;分布式安全存储系统纠删码技术的研究[D];中国科学院研究生院(成都计算机应用研究所);2006年
9 侯孟书;基于P2P的分布式存储及其相关技术研究[D];电子科技大学;2005年
10 郭渊博;容忍入侵的理论与方法及其应用研究[D];西安电子科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 王君君;网络文件的分布式存储设计与实现[D];山东大学;2014年
2 曾铁钢;基于路由器的分布式存储技术的研究[D];复旦大学;2012年
3 陈寅;基于网络编码的分布式存储技术研究[D];西安电子科技大学;2011年
4 张彦;虚拟计算环境分布式存储系统设计与实现[D];北京邮电大学;2010年
5 罗岚楠;基于三层体系结构的分布式存储访问系统技术研究[D];电子科技大学;2012年
6 吕景隆;机会网络中分布式存储机制的研究[D];北京邮电大学;2013年
7 孙建良;分布式存储系统可用性与一致性研究[D];华中科技大学;2013年
8 赵松楠;海量数据分布式存储与安全保护研究[D];山东大学;2014年
9 杨志宇;基于蝴蝶网络的P2P存储结构研究[D];湖南大学;2012年
10 刘刚;分布式存储网络中的数据完整性校验与修复[D];上海交通大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026