收藏本站
《西南石油大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop平台的分布式web日志分析系统的研究与实现

曾新励  
【摘要】:伴随科技进步以及互联网日新月异的发展,互联网与人们的生活联系的越来越紧密。运行于互联网的网站每天会产生大量日志信息,人们的访问记录都保存在web日志中。分析日志数据成为了解网站运营情况、用户访问规律等信息的重要手段,挖掘其中有价值的信息有利于企业为用户提供更好更方便的服务。目前多数日志分析系统还是单机的,面对海量web日志数据,无论是性能还是存储容量都无法胜任。为了满足大数据分析的需求,涌现了很多的数据处理方案,尤其是以Hadoop为代表的云计算技术,强大的分布式存储及计算能力,为海量web日志的存储及分析提供了很好平台。本文首先介绍了分布式技术的发展状况,同时对当前web日志挖掘的背景做了描述。然后对Hadoop核心组件HDFS和MapReduce,Hive数据仓库进行研究。深入研究了 HDFS分布式文件系统下数据的存储原理,数据的访问模式和系统的容错机制和MapReduee并行计算框架的编程模型。然后为web日志分析系统建立合适的业务数据处理模型,并在Hadoop平台上设计高效的web日志分析系统。系统主要包括日志存储、日志收集、日志预处理、关键指标统计、日志挖掘五个模块。日志存储采用HDFS与MySQL相结合的方式,HDFS存储原始日志以及清洗后的日志。日志的预处理采用MapReduce并行化的方式对包含噪声的数据清洗标准化。指标统计使用Hive数据仓库的HQL脚本对网站运营情况进行分析。日志挖掘使用在MapReduce平台改进的K-means算法对注册用户聚类分析,提高了算法在处理海量数据时的效率。最后通过系统测试证明,基于Hadoop的web日志分析系统在收集、处理、存储、挖掘方面相比传统单机处理有很大改进,不仅减少了开发人员工作量同时还提高了系统效率。
【学位授予单位】:西南石油大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前10条
1 何非;何克清;;大数据及其科学问题与方法的探讨[J];武汉大学学报(理学版);2014年01期
2 余琦;凌捷;;基于HDFS的云存储安全技术研究[J];计算机工程与设计;2013年08期
3 高洪;杨庆平;黄震江;;基于Hadoop平台的大数据分析关键技术标准化探讨[J];信息技术与标准化;2013年05期
4 周婷;张君瑛;罗成;;基于Hadoop的K-means聚类算法的实现[J];计算机技术与发展;2013年07期
5 孟小峰;慈祥;;大数据管理:概念、技术与挑战[J];计算机研究与发展;2013年01期
6 李国杰;程学旗;;大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J];中国科学院院刊;2012年06期
7 李超;梁阿磊;管海兵;李小勇;;海量存储系统的性能管理与监测方法研究[J];计算机应用与软件;2012年07期
8 李建江;崔健;王聃;严林;黄义双;;MapReduce并行编程模型研究综述[J];电子学报;2011年11期
9 刘永增;张晓景;李先毅;;基于Hadoop/Hive的web日志分析系统的设计[J];广西大学学报(自然科学版);2011年S1期
10 张世乐;魏芳;费仲超;;基于代理的互联网用户行为分析研究[J];计算机应用与软件;2011年08期
中国硕士学位论文全文数据库 前10条
1 蔡大威;基于Hadoop和Hama平台的并行算法研究[D];浙江大学;2013年
2 李鑫;Hadoop框架的扩展和性能调优[D];西安建筑科技大学;2012年
3 周津;互联网中的海量用户行为挖掘算法研究[D];中国科学技术大学;2011年
4 白云龙;基于Hadoop的数据挖掘算法研究与实现[D];北京邮电大学;2011年
5 杨宸铸;基于HADOOP的数据挖掘研究[D];重庆大学;2010年
6 李应安;基于MapReduce的聚类算法的并行化研究[D];中山大学;2010年
7 曾理;Hadoop的重复数据清理模型研究与实现[D];南华大学;2010年
8 张密密;MapReduce模型在Hadoop实现中的性能分析及改进优化[D];电子科技大学;2010年
9 李亭枫;面向网络用户行为模式发现的数据挖掘技术探索[D];电子科技大学;2010年
10 郑韫旸;基于k-平均算法的文本聚类系统研究与实现[D];武汉理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 郁云;许昌;徐坚;魏瑾;;智能施肥机作物覆盖率测量系统设计——基于北斗导航和多媒体图像处理[J];农机化研究;2018年02期
2 陈香香;王建锋;;精密排种器性能监测装置研究——基于超材料光电传感器[J];农机化研究;2018年01期
3 殷玥;;基于嵌入式PC和物联网的无人驾驶拖拉机研究[J];农机化研究;2018年01期
4 董芹;;大数据影响下基于SWOT分析的档案管理研究[J];现代商贸工业;2017年36期
5 王筠;周明;;电改环境下基于大数据平台的输配电价分析研究与应用[J];科技与创新;2017年23期
6 雷勇;;普通高校大数据专业实验课程开设模式初探[J];考试周刊;2017年97期
7 李春燕;李根;高永强;;基于云计算的农机三维数字化云服务平台设计[J];农机化研究;2017年12期
8 张成考;;大数据背景下物流企业面临的挑战与对策[J];淮海工学院学报(人文社会科学版);2017年11期
9 李成赞;张丽丽;侯艳飞;周园春;黎建辉;;科学大数据开放共享:模式与机制[J];情报理论与实践;2017年11期
10 牛耀国;;“互联网+”时代下的校园智能雨伞租赁研究[J];物联网技术;2017年11期
中国硕士学位论文全文数据库 前10条
1 王鑫;多数据流频繁项集挖掘算法研究[D];山东师范大学;2017年
2 马琼琼;基于语义的文本聚类算法研究[D];北京交通大学;2017年
3 周艳玲;基于Hadoop的海量电能质量监测数据云平台的研究[D];西安科技大学;2017年
4 陈威;基于Hadoop的K-means遥感影像分类算法的研究[D];江西理工大学;2017年
5 刘建红;基于Hadoop平台的聚类算法并行化研究[D];吉林大学;2017年
6 曾新励;基于Hadoop平台的分布式web日志分析系统的研究与实现[D];西南石油大学;2017年
7 马冬旸;通信行为分析的大数据处理策略的研究[D];吉林大学;2017年
8 潘争光;基于实时存储的海量大气颗粒物在线分析系统的研究[D];中国科学院大学(中国科学院沈阳计算技术研究所);2017年
9 张玉侠;基于Spark Streaming的流聚类算法StreamCKS的设计与实现[D];华侨大学;2017年
10 丁艺;基于内容的新浪微博舆情预测研究[D];首都经济贸易大学;2017年
【二级参考文献】
中国期刊全文数据库 前10条
1 王元卓;靳小龙;程学旗;;网络大数据:现状与展望[J];计算机学报;2013年06期
2 李建江;崔健;王聃;严林;黄义双;;MapReduce并行编程模型研究综述[J];电子学报;2011年11期
3 金崇英;李小勇;白英彩;;海量存储系统的发展与展望[J];计算机应用与软件;2011年08期
4 李远方;邓世昆;闻玉彪;韩月阳;;Hadoop-MapReduce下的PageRank矩阵分块算法[J];计算机技术与发展;2011年08期
5 侯清铧;武永卫;郑纬民;杨广文;;一种保护云存储平台上用户数据私密性的方法[J];计算机研究与发展;2011年07期
6 张圣;;一种基于云计算的关联规则Apriori算法[J];通信技术;2011年06期
7 程苗;陈华平;;基于Hadoop的Web日志挖掘[J];计算机工程;2011年11期
8 冯登国;张敏;张妍;徐震;;云计算安全研究[J];软件学报;2011年01期
9 宁焕生;徐群玉;;全球物联网发展及中国物联网建设若干思考[J];电子学报;2010年11期
10 王凯;吴泉源;杨树强;;一种多用户MapReduce集群的作业调度算法的设计与实现[J];计算机与现代化;2010年10期
中国硕士学位论文全文数据库 前10条
1 刘猛;云计算平台下神经网络方法研究[D];电子科技大学;2011年
2 陈艳金;MapReduce模型在Hadoop平台下实现作业调度算法的研究和改进[D];华南理工大学;2011年
3 杜雅红;基于云计算平台的图算法研究[D];北京邮电大学;2011年
4 徐文强;基于HDFS的云存储系统研究[D];上海交通大学;2011年
5 杨宸铸;基于HADOOP的数据挖掘研究[D];重庆大学;2010年
6 李雪锋;基于云计算环境的web数据挖掘算法研究[D];北京交通大学;2010年
7 夏祎;Hadoop平台下的作业调度算法研究与改进[D];华南理工大学;2010年
8 张密密;MapReduce模型在Hadoop实现中的性能分析及改进优化[D];电子科技大学;2010年
9 张文峰;基于MapReduce模型的分布式计算平台的原理与设计[D];华中科技大学;2010年
10 邓自立;云计算中的网络拓扑设计和Hadoop平台研究[D];中国科学技术大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026