收藏本站
《南京大学》 2014年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Spark的网络日志分析系统的设计与实现

刘季函(Liu,Chi Han)  
【摘要】:目前互联网络的应用已经深入到企业办公系统中,企业业务时常需要依赖互联网来达成。通过网络,信息传播可以大幅降低工作成本并能极为明显的提高办公效能。但是随着网络给员工作事务带来便利,企业员工时常在上班时间访问-些与工作无关的网站,给企业不论是业务还是网络环境皆带来了不良的影响。因此,企业需要针对用户网络访问行为的审计系统,透过网络日志分析系统去了解用户上网行为、趋向。日志中包含了大量人们感兴趣的信息,为系统的运行和维护提供了丰富的信息,同时也记载着用户访问各种网页的数据,其通过文本的形式将系统产生的行为准确规范得记录存储。随着互联网企业的壮大以及应用程序规模的扩大,各种日志信息同时也呈数量级的增长,一般使用单台机器处理的日志分析系统早已完全无法达到目前企业日志分析的需求,因此海量数据处理集群就成为日志分析的理想平台。最初的大数据计算处理框架是Google在2003-2006年提出的,随后一个相似的开源大数据计算框架Hadoop就这样诞生了,作为一个分布式计算框架,在当时其在海量数据处理效能卓越,曾经在互联网企业掀起一波巨浪。但是单纯使用Hadoop框架仍然有很多限制,它并不能很好的支持实时分析以及多次迭代的计算场景,因此许多企业在2009年后陆续提出改良的计算框架,如Dremel、Spark等。基于以上现状,通过对大量文献的阅读和参考,以及常见的企业对于用户行为观察了解的需求,本文设计了一个基于Spark的海量日志数据分析平台。平台使用Squid服务器中的access.log,并且设计了日志采集、逻辑处理、网页展示、任务管理等四个模块。日志采集模块实现了数据的收集和导入;逻辑处理模块实现了数据分析处理的过程;网页展示模块实现了一个客户端供用户操作及处理结果的展示;任务管理模块实现了集群的监控和管理。相较于Hadoop, Spark通过内存中运算能带来大幅度性能的改善。
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.52

手机知网App
【参考文献】
中国期刊全文数据库 前3条
1 张涛,王海鹏,胡正国;基于UML用例图的软件产品线需求建模方法[J];计算机应用研究;2004年10期
2 夏玲军;楼晓峰;;云计算及其面临的挑战[J];软件导刊;2010年10期
3 刘海杜;;软件的非功能需求及测试方法探讨[J];软件产业与工程;2010年05期
【共引文献】
中国期刊全文数据库 前10条
1 邓仲华;李志芳;黎春兰;;云服务质量的挑战及保障研究[J];图书与情报;2012年04期
2 郎波;张博宇;;面向大数据的非结构化数据管理平台关键技术[J];信息技术与标准化;2013年10期
3 邵景峰;崔尊民;王进富;白晓波;;大数据下纺织制造执行系统的构建[J];纺织器材;2013年06期
4 张亚楠;谭跃生;;基于MapReduce的并行遮盖文本聚类算法[J];内蒙古科技大学学报;2013年03期
5 周国亮;朱永利;王桂兰;;CC-MRSJ:Hadoop平台下缓存敏感的星型联接算法[J];电信科学;2013年10期
6 王鹏;黄焱;刘峰;安俊秀;;大数据技术中计算与数据的协作机制[J];成都信息工程学院学报;2014年01期
7 杜政颉;王鹏;黄焱;郎福通;;一种基于Storm编程模型的迭代Topology方案[J];成都信息工程学院学报;2014年01期
8 范飞;黄文明;邓珍荣;;Oozie工作流在Mahout分布式数据挖掘中的应用[J];桂林电子科技大学学报;2014年01期
9 丁玉成;诸葛晴凤;沙行勉;;云计算环境下排序算法的性能分析[J];重庆大学学报;2014年04期
10 乔媛媛;刘芳;凌艳;尹劲松;;云计算环境下MapReduce的资源建模与性能预测[J];北京邮电大学学报;2014年S1期
中国重要会议论文全文数据库 前7条
1 乔媛媛;刘芳;凌艳;尹劲松;;云计算环境下MapReduce的资源建模与性能预测[A];2013年全国通信软件学术会议论文集[C];2013年
2 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26届中国控制与决策会议论文集[C];2014年
3 陈佐旗;余柏蒗;吴健平;;基于GPU通用计算的遥感数据处理——以计算地表太阳辐射值为例[A];第十八届中国环境遥感应用技术论坛论文集[C];2014年
4 白永超;付伟;辛阳;;基于Hadoop和Nutch的分布式搜索引擎研究与仿真[A];第十九届全国青年通信学术年会论文集[C];2014年
5 李超越;徐国胜;;Hadoop公平调度算法的改进[A];第十九届全国青年通信学术年会论文集[C];2014年
6 张恺玉;陈磊;;一种基于Hadoop架构的指挥系统大数据挖掘方法[A];第三届中国指挥控制大会论文集(上册)[C];2015年
7 朱健军;张彤;吴哲夫;;基于权值的Hadoop调度算法改进与实现[A];浙江省电子学会2014学术年会论文集[C];2014年
中国博士学位论文全文数据库 前10条
1 侯少杰;煤矿瓦斯治理过程控制理论及应用研究[D];中国矿业大学;2010年
2 李健;云计算环境下最小化运营开销的调度技术研究[D];北京邮电大学;2013年
3 韩晶;大数据服务若干关键技术研究[D];北京邮电大学;2013年
4 程祥;高效可靠的虚拟网络映射技术研究[D];北京邮电大学;2013年
5 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年
6 卢风顺;面向CPU/GPU异构体系结构的并行计算关键技术研究[D];国防科学技术大学;2012年
7 孙鹏;动车组维修物联网及其关键技术研究[D];中国铁道科学研究院;2013年
8 肖奎;维基百科大数据的知识挖掘与管理方法研究[D];武汉大学;2013年
9 程兴国;仿生算法的动态反馈机制及其并行化实现方法研究[D];华南理工大学;2013年
10 马冯;数据密集型计算环境下贝叶斯网的学习、推理及应用[D];云南大学;2013年
中国硕士学位论文全文数据库 前10条
1 章晖;云计算平台业务管理与执行子系统的设计与实现[D];北京邮电大学;2012年
2 王日磊;基于B方法的AADL模型生成的研究[D];西北大学;2012年
3 曾浩;云计算在电信行业经营分析系统中对海量数据处理的研究[D];湖南大学;2011年
4 万文燕;电信项目流程管控系统的设计与实现[D];南昌大学;2012年
5 张钢;基于云计算平台的网络安全入侵场景重建技术研究[D];南京理工大学;2013年
6 刘士龙;苹果应用本地化推荐系统的研究与实现[D];河北师范大学;2013年
7 李成成;爱简网跳蚤市场交易网站的设计与实现[D];北京交通大学;2013年
8 杨焕;云计算环境下任务调度策略的研究[D];河南大学;2013年
9 曹金源;基于无线传感器网络的设施农业温湿度监测系统设计与实现[D];中国农业科学院;2013年
10 章伟星;基于Hadoop的海量广告日志分析系统的设计与实现[D];哈尔滨工业大学;2013年
【二级参考文献】
中国期刊全文数据库 前2条
1 黎春兰;邓仲华;;论云计算的价值[J];图书与情报;2009年04期
2 陈全;邓倩妮;;云计算及其关键技术[J];计算机应用;2009年09期
【相似文献】
中国期刊全文数据库 前10条
1 姜良华;崔建明;;Serv-U FTP服务器日志分析系统设计与实现[J];电脑知识与技术;2010年28期
2 李玉荣;杨树强;贾焰;周斌;樊宇;;分布式日志服务关键技术研究[J];计算机工程与应用;2006年07期
3 李哲;李先国;;基于关联规则的日志分析系统的研究与设计[J];微型电脑应用;2009年03期
4 陈文;邓韵东;钏涛;;电网网络系统运行日志分析[J];云南电力技术;2011年05期
5 李燕南;刘新;蒋伟宏;赵群;;主机日志分析与研究[J];中国高新技术企业;2010年04期
6 李先捷;汤艳君;;基于日志的提取已修改计算机系统时间的方法[J];信息网络安全;2013年05期
7 刘虎球;马超;白家驹;;面向驱动配置的自动日志插入方法研究[J];计算机学报;2013年10期
8 方航锋,汪海航;日志提取分析系统的设计和实现[J];计算机工程;2004年14期
9 陈海宇;曾德胜;;基于日志的异常软件使用模式检测[J];淮海工学院学报(自然科学版);2011年01期
10 袁佳;郭燕慧;;基于rabbitmq的海量日志的分布式处理[J];软件;2013年07期
中国重要会议论文全文数据库 前10条
1 马辰;武斌;;一种基于攻击事件图的蜜网日志分析方法[A];虚拟运营与云计算——第十八届全国青年通信学术年会论文集(下册)[C];2013年
2 周涛;;基于数据挖掘的入侵检测日志分析技术研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年
3 陈晨;郑康锋;;一种基于支持向量机的蜜网系统日志分析方法[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 刘莉;;基于多协议技术的日志集中管理安全方案[A];2008年中国通信学会无线及移动通信委员会学术年会论文集[C];2008年
5 耿涛;;Web日志分析在电子数据取证中的应用[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
6 闫龙川;王怀宇;李枫;毛一凡;;基于Hadoop的邮件日志分析与研究[A];2012电力行业信息化年会论文集[C];2012年
7 陈庆章;王磊;毛科技;戴国勇;;基于防火墙日志的在线攻击侦查系统的设计与实现(英文)[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
8 王振亚;武斌;;基于MFI-WT算法的蜜网日志分析方法[A];第十七届全国青年通信学术年会论文集[C];2012年
9 金松昌;方滨兴;杨树强;贾焰;;基于Hadoop的网络安全日志分析系统的设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
10 朱金清;王建新;陈志泊;;基于APRIORI的层次化聚类算法及其在IDS日志分析中的应用[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
中国重要报纸全文数据库 前10条
1 中航工业南方航空工业集团(有限)公司科技与信息部 邹沪湘;分析日志识别暴力破解[N];计算机世界;2013年
2 ;日志分析中的五个误区[N];网络世界;2004年
3 陈代寿;网管的四两拨千斤[N];中国计算机报;2004年
4 IBM大数据专家 James Kobielus 范范 编译;大数据日志分析借机器学习腾飞[N];网络世界;2014年
5 《网络世界》评测实验室 于洋;用好Web日志[N];网络世界;2004年
6 重庆 航行者;IIS的安全[N];电脑报;2002年
7 河南工业职业技术学院 邱建新;监测Squid日志的五种方法[N];计算机世界;2005年
8 shotgun;入侵检测初步(上)[N];电脑报;2001年
9 朱闵;浅谈企业核心应用的安全审计(下)[N];网络世界;2008年
10 覃进文;在Windows 2000&&2003下快速安装Webalizer[N];中国电脑教育报;2003年
中国博士学位论文全文数据库 前3条
1 饶翔;基于日志的大规模分布式软件系统可信保障技术研究[D];国防科学技术大学;2011年
2 曹志波;基于日志的任务建模及调度优化的研究[D];华南理工大学;2014年
3 胡蓉;WEB日志和子空间聚类挖掘算法研究[D];华中科技大学;2008年
中国硕士学位论文全文数据库 前10条
1 王潇博;基于挖掘算法的日志分析系统设计与实现[D];北京交通大学;2008年
2 孙寅林;基于分布式计算平台的海量日志分析系统的设计与实现[D];西安电子科技大学;2012年
3 邓海川;日志分析系统的任务调度方法研究[D];南京航空航天大学;2013年
4 宋浩;综合审计平台之后台日志处理服务的设计与实现[D];山东大学;2008年
5 冯绿音;网络信息系统日志分析与审计技术研究[D];上海交通大学;2007年
6 杨书思;一种可配置的网络报警日志匿名工具的设计与实现[D];广州大学;2009年
7 吴静;面向异构数据源的内网综合日志审计技术研究[D];中国工程物理研究院;2010年
8 黄静宾;面向增量数据检测的日志分析技术的研究[D];暨南大学;2011年
9 李海峰;网络日志分析技术研究与实现[D];北京化工大学;2005年
10 朱宝金;面向云计算系统的日志过滤系统的设计与实现[D];杭州电子科技大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026