收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop的Web日志的分析平台的设计与实现

付伟  
【摘要】:随着互联网行业的快速发展,互联网用户在成指数级别地增长。而且大众用户的正常的工作和生活越来越依赖于互联网,对于那些互联网企业,海量用户的访问每天都会产生海量的Web日志信息,在这些Web日志中隐藏了巨大的商业信息。目前信息社会中准率先掌握了用户信息,谁就可以引领时代的发展。不仅如此,对Web日志的挖掘也可以改变人们的生活和工作习惯。 本文的研究内容主要包括以下几个方面: 对分布式技术进行了研究。主要深入研究了Hadoop分布式平台。近些年来,越来越多的企业、机构和个人对海量数据的研究产生了兴趣。其中Google公司可以说是大数据时代的开创者,Google公司的分布式平台Hadoop备受人们的喜爱。Hadoop分布式平台可以运行在普通的、廉价的计算机上面来提供分布式计算服务,但是Hadoop可以保证计算的高效性、安全性、高扩展性。Hadoop经过多年的发展,已经成长为了一个完整的生态系统,在其生态家族中最被常用的是MapReduce编程模型和HDFS (Hadoop分布式文件系统)。 对聚类挖掘进行了研究。聚类分析方法是数据挖掘领域特别在Web日志分析中最常用的一个技术方法。聚类就是将数据集合中相似度较高的数据对象集合在一起,将数据对象划分成多个类或簇,类或簇就是相似性度量高的数据对象的集合,划分的准则就是类中的数据对象相似度比较大,而类间的数据对象相似性比较小。并且详细介绍了K-means聚类算法。 对基于Hadoop的Web日志预处理模块进行了概要设计。Web日志预处理模块中主要负责对原始的Web日志数据进行数据清洗、用户识别、会话识别和路径补充等。本文设计了一套基于Hadoop的Web日志预处理系统来提高预处理的效率。 对基于Hadoop的Web日志分析平台进行了详细设计。根据Hadoop以及Web日志挖掘深入的学习与研究,本文设计一个基于Hadoop的Web日志分析平台。该平台主要有以下几个功能模块组成:Web日志的预处理模块、Web日志的存储模块、Web日志挖掘模块。其中Web日志预处理模块使用上面介绍的基于Hadoop来实现的预处理模块。在存储模块中本文采用Hadoop中的HDFS和MySQL组合来实现。HDFS负责存储原始的Web日志文件以及经过Map和Reduce处理后的文件,而MySQL负责存储从HDFS分布式文件系统中导出的数据,以供业务层使用挖掘后的数据信息。本文使用sqoop工具负责HDFS和MySQL直接的数据传输。最后,Web日志挖掘模块中,首先,本文使用K-means聚类算法作为Web日志分析的挖掘算法,由于本系统基于Hadoop实现的,因此本文对K-means进行了改进使其能使用在分布式平台上。其次,本文主要对Web用户行为进行挖掘分析,因此需要对Web日志中的用户建立数据模型,并最终通过编程来实现了该系统。 最后对基于Hadoop的Web日志分析平台功能测试和性能测试,并通过与单机系统的结果比较,证明了该系统在处理海量Web日志方面具有明显的优势。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 姜良华;崔建明;;Serv-U FTP服务器日志分析系统设计与实现[J];电脑知识与技术;2010年28期
2 李玉荣;杨树强;贾焰;周斌;樊宇;;分布式日志服务关键技术研究[J];计算机工程与应用;2006年07期
3 李哲;李先国;;基于关联规则的日志分析系统的研究与设计[J];微型电脑应用;2009年03期
4 陈文;邓韵东;钏涛;;电网网络系统运行日志分析[J];云南电力技术;2011年05期
5 李燕南;刘新;蒋伟宏;赵群;;主机日志分析与研究[J];中国高新技术企业;2010年04期
6 李先捷;汤艳君;;基于日志的提取已修改计算机系统时间的方法[J];信息网络安全;2013年05期
7 刘虎球;马超;白家驹;;面向驱动配置的自动日志插入方法研究[J];计算机学报;2013年10期
8 方航锋,汪海航;日志提取分析系统的设计和实现[J];计算机工程;2004年14期
9 陈海宇;曾德胜;;基于日志的异常软件使用模式检测[J];淮海工学院学报(自然科学版);2011年01期
10 袁佳;郭燕慧;;基于rabbitmq的海量日志的分布式处理[J];软件;2013年07期
11 涂频;;服务器日志分析在网站改进中的应用[J];九江学院学报(自然科学版);2010年04期
12 余亚玲;唐红武;杜海霞;;基于日志的安全事件管理系统的研究与实现[J];计算机工程;2007年16期
13 岳丽华;向小岩;金培权;刘沾沾;;基于分离日志的闪存数据库系统存储管理方法[J];中国科学技术大学学报;2010年05期
14 张建星;栾俊廷;;通过设备日志分析识别业务流的方法[J];价值工程;2014年10期
15 张婕,张大力,李文祯;网络和系统的日志采集及分析[J];计算机工程;2000年S1期
16 梁为,凌怀新,张晓刚,潘久辉;基于Oracle的日志分析器[J];计算机应用;2003年07期
17 齐林;郭陟;顾明;;日志分析法在一卡通系统测试中的应用[J];计算机应用研究;2006年05期
18 姚德中;吴荣泉;许延武;;WindowsNT日志分析与修复[J];计算机工程;2008年S1期
19 赵斯琴;付勇;陈康;郑纬民;;基于虚拟机的多个安全级别的日志生成方法[J];清华大学学报(自然科学版);2013年02期
20 王斌;李超;蒋秋华;;基于Hadoop的自动售票日志分析系统设计[J];铁路计算机应用;2014年07期
中国重要会议论文全文数据库 前10条
1 马辰;武斌;;一种基于攻击事件图的蜜网日志分析方法[A];虚拟运营与云计算——第十八届全国青年通信学术年会论文集(下册)[C];2013年
2 周涛;;基于数据挖掘的入侵检测日志分析技术研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年
3 陈晨;郑康锋;;一种基于支持向量机的蜜网系统日志分析方法[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 刘莉;;基于多协议技术的日志集中管理安全方案[A];2008年中国通信学会无线及移动通信委员会学术年会论文集[C];2008年
5 耿涛;;Web日志分析在电子数据取证中的应用[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
6 闫龙川;王怀宇;李枫;毛一凡;;基于Hadoop的邮件日志分析与研究[A];2012电力行业信息化年会论文集[C];2012年
7 陈庆章;王磊;毛科技;戴国勇;;基于防火墙日志的在线攻击侦查系统的设计与实现(英文)[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
8 王振亚;武斌;;基于MFI-WT算法的蜜网日志分析方法[A];第十七届全国青年通信学术年会论文集[C];2012年
9 朱金清;王建新;陈志泊;;基于APRIORI的层次化聚类算法及其在IDS日志分析中的应用[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
10 金松昌;方滨兴;杨树强;贾焰;;基于Hadoop的网络安全日志分析系统的设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
中国博士学位论文全文数据库 前3条
1 饶翔;基于日志的大规模分布式软件系统可信保障技术研究[D];国防科学技术大学;2011年
2 曹志波;基于日志的任务建模及调度优化的研究[D];华南理工大学;2014年
3 胡蓉;WEB日志和子空间聚类挖掘算法研究[D];华中科技大学;2008年
中国硕士学位论文全文数据库 前10条
1 王潇博;基于挖掘算法的日志分析系统设计与实现[D];北京交通大学;2008年
2 孙寅林;基于分布式计算平台的海量日志分析系统的设计与实现[D];西安电子科技大学;2012年
3 邓海川;日志分析系统的任务调度方法研究[D];南京航空航天大学;2013年
4 宋浩;综合审计平台之后台日志处理服务的设计与实现[D];山东大学;2008年
5 冯绿音;网络信息系统日志分析与审计技术研究[D];上海交通大学;2007年
6 杨书思;一种可配置的网络报警日志匿名工具的设计与实现[D];广州大学;2009年
7 吴静;面向异构数据源的内网综合日志审计技术研究[D];中国工程物理研究院;2010年
8 黄静宾;面向增量数据检测的日志分析技术的研究[D];暨南大学;2011年
9 李海峰;网络日志分析技术研究与实现[D];北京化工大学;2005年
10 朱宝金;面向云计算系统的日志过滤系统的设计与实现[D];杭州电子科技大学;2014年
中国重要报纸全文数据库 前10条
1 中航工业南方航空工业集团(有限)公司科技与信息部 邹沪湘;分析日志识别暴力破解[N];计算机世界;2013年
2 ;日志分析中的五个误区[N];网络世界;2004年
3 《网络世界》评测实验室 于洋;用好Web日志[N];网络世界;2004年
4 陈代寿;网管的四两拨千斤[N];中国计算机报;2004年
5 IBM大数据专家 James Kobielus 范范 编译;大数据日志分析借机器学习腾飞[N];网络世界;2014年
6 重庆 航行者;IIS的安全[N];电脑报;2002年
7 河南工业职业技术学院 邱建新;监测Squid日志的五种方法[N];计算机世界;2005年
8 shotgun;入侵检测初步(上)[N];电脑报;2001年
9 朱闵;浅谈企业核心应用的安全审计(下)[N];网络世界;2008年
10 覃进文;在Windows 2000&&2003下快速安装Webalizer[N];中国电脑教育报;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978