收藏本站
《北京交通大学》 2014年
收藏 | 手机打开
二维码
手机客户端打开本文

海量日志分布式处理系统的研究与应用

蒋慧斐  
【摘要】:随着社会的进步、信息技术的持续发展,海量数据呈指数级生成。传统数据库技术已无法满足大数据的存储和计算要求,于是Hadoop技术应运而生。校园网设备中积存着大量日志数据,但无法充分利用,反而成为了负担,对分布式处理分析系统有着迫切的需求。 本人(独立或参与)完成了如下工作:为了提高整个Hadoop系统的效率,从数据导入、数据分析/处理、聚类三个方面的效率进行实验分析,并提供了相应的优化策略。数据导入效率优化的策略是去掉pipeline中的部分ACK反馈,为了保持数据的完整性和可靠性,更新数据节点上错误重传方法,在每个数据节点上维护一个已接收packet包的dataqueue和一个存放已接收packet id的表。针对数据处理效率优化,论文中针对三组相关参数(mapred.map.tasks、dfs.block.size、io.sort.mb)设置了多组测试数据,并进行了分析对比,得出了各个参数比较适合的取值范围。聚类效率优化策略是添加Mapper输入缓存并将Task调度本地化,也就是使每次迭代中分配给每个节点的MapTask与第一次迭代时的分配基本一致。 本文根据之前对Hadoop系统的优化分析,对Hadoop进行改进,并应用到校园网日志分析中来,设计开发了一套基于myHadoop的校园网用户访问日志分析系统。文章从众多种类的日志中选取了与校园网用户行为密切相关的计费日志。通过该日志中的访问时间属性,提取出用户十二维的上网时间段特征向量。对于聚类算法,选择了简易、广泛被使用的K-MEANS算法。实际应用中选择的K-MEANS算法是Mahout库中对其的Hadoop实现。在文章最后对聚类结果进行了统计分析,并对各种优化策略效果进行了对比分析。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13;TP311.52

【参考文献】
中国期刊全文数据库 前6条
1 辛大欣;刘飞;;Hadoop集群性能优化技术研究[J];电脑知识与技术;2011年22期
2 黎宏剑;刘恒;黄广文;卜立;;基于Hadoop的海量电信数据云计算平台研究[J];电信科学;2012年08期
3 潘莹;梁京章;黎慧娟;;基于K-means算法的校园网用户行为聚类分析[J];计算技术与自动化;2007年01期
4 赵晓永;杨扬;孙莉莉;陈宇;;基于Hadoop的海量MP3文件存储架构[J];计算机应用;2012年06期
5 熊聪聪;冯龙;陈丽仙;苏静;;云存储在校园信息化中的应用与优化[J];天津科技大学学报;2012年05期
6 王彦明;奉国和;薛云;;近年来Hadoop国外研究综述[J];计算机系统应用;2013年06期
【共引文献】
中国期刊全文数据库 前10条
1 陈本辉;杨丕仁;顾应龙;段利华;;基于自组织特征映射神经网络的校园网用户聚类分析[J];大理学院学报;2009年04期
2 成静静;喻朝新;;基于云计算的大数据统一分析平台研究与设计[J];广东通信技术;2013年01期
3 陈森博;陈张杰;;基于Hadoop集群的日志分析系统的设计与实现[J];电脑知识与技术;2013年34期
4 潘峰楠;;校园网用户行为的分析与研究[J];长江大学学报(自科版);2013年28期
5 郭荔荔;李敬兆;;基于云存储的井下人员定位数据处理[J];电脑知识与技术;2014年04期
6 宋乐;林玉池;刘启海;赵美蓉;冯伟昌;;一种新型异源图像融合质量评价模型[J];激光与红外;2010年01期
7 牛永洁;张成;;用户行为驱动的网页布局自动调整的研究[J];计算技术与自动化;2011年01期
8 周文鹏;;基于数据挖掘的个性化网页推送服务模式研究[J];计算机与数字工程;2010年08期
9 王燕;孙玲芳;徐曰光;陈思光;黎维良;王雁秋;闫超;;基于高效多功能的聚类算法在Web挖掘中应用的研究[J];科学技术与工程;2008年04期
10 赵晓永;杨扬;孙莉莉;;一种采用声学指纹去重的海量MP3文件存储架构[J];计算机应用研究;2013年02期
中国博士学位论文全文数据库 前1条
1 宋乐;异源图像融合及其评价方法的研究[D];天津大学;2008年
中国硕士学位论文全文数据库 前10条
1 杜立平;Web用户访问聚类模式研究[D];西安电子科技大学;2010年
2 吴勇;网络环境下用户行为研究与实现[D];南京理工大学;2007年
3 姜亚南;数据挖掘在校园网用户网络行为分析的应用研究[D];河南理工大学;2009年
4 姜淼;Hadoop云平台下调度算法的研究[D];吉林大学;2012年
5 张钰培;基于云计算平台的网络运行管理系统的设计与实现[D];吉林大学;2012年
6 朱珺辰;支持PaaS的CTS测试云平台部分模块的设计与实现[D];南京大学;2012年
7 魏玉英;基于MapReduce的网络书写纹识别关键技术研究[D];华中师范大学;2012年
8 王昊;云计算资源管理子系统的研究与实现[D];北京交通大学;2012年
9 汪晶晶;基于MapReduce的天文数据处理方法与应用研究[D];昆明理工大学;2012年
10 陆路;云环境下作业调度算法研究[D];南京理工大学;2013年
【二级参考文献】
中国期刊全文数据库 前9条
1 吕巍,蒋波,陈洁;基于K-means算法的中国移动市场顾客行为细分策略研究[J];管理学报;2005年01期
2 谭勇,荣秋生;一个基于K-means的聚类算法的实现[J];湖北民族学院学报(自然科学版);2004年01期
3 张先锋;邹蕾;;云计算技术及其应用研究[J];计算机与数字工程;2011年10期
4 张建勋;古志民;郑超;;云计算研究进展综述[J];计算机应用研究;2010年02期
5 刘金芝;余丹;朱率率;;一种新的云存储服务模型研究[J];计算机应用研究;2011年05期
6 孙香花;;云计算研究现状与发展趋势[J];计算机测量与控制;2011年05期
7 王福林;;新技术对音乐产业的冲击[J];辽宁行政学院学报;2008年01期
8 王佳隽;吕智慧;吴杰;钟亦平;;云计算技术发展分析及其应用探讨[J];计算机工程与设计;2010年20期
9 刘斌;朱海涛;王晓翠;;基于XCP的虚拟化云平台建设研究[J];现代图书情报技术;2011年06期
中国硕士学位论文全文数据库 前2条
1 施岩;云计算研究及Hadoop应用程序的开发与测试[D];北京邮电大学;2011年
2 金松昌;基于HDFS的多用户并行文件IO的设计与实现[D];国防科学技术大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 刘静,郭秀丽;基于Webalizer的Web服务器日志分析[J];山东电子;2004年02期
2 徐腾;;探析电子证据在计算机犯罪中的取证研究[J];自动化与仪器仪表;2011年04期
3 费宗莲;;Fortinet提供网络安全新产品 集中式日志分析报表系统[J];计算机安全;2006年04期
4 周颖;;如何利用AWStats对VSFTP日志进行分析、统计[J];科技信息;2006年04期
5 梁晓雪;王锋;;基于聚类的日志分析技术综述与展望[J];云南大学学报(自然科学版);2009年S1期
6 陈庭平;沈丽娟;曾鹏;;日志服务器建设和应用[J];网络安全技术与应用;2010年09期
7 姜良华;崔建明;;Serv-U FTP服务器日志分析系统设计与实现[J];电脑知识与技术;2010年28期
8 段生林;基于防病毒软件的日志分析系统的设计与实现[J];华南金融电脑;2004年12期
9 金花;黄明;梁旭;;基于Frame页面过滤的Web日志挖掘中的数据预处理方法[J];大连铁道学院学报;2006年02期
10 王家兰;王余旺;;基于Web日志分析的Web Qos研究[J];电脑知识与技术(学术交流);2007年19期
中国重要会议论文全文数据库 前10条
1 高聪梅;宋超;陈东明;;固定电话客户CDR数据挖掘系统的实施[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
2 成英燕;丁继新;;我国高精度GPS陆海垂直运动监测网的数据处理[A];新世纪 新机遇 新挑战——知识创新和高新技术产业发展(上册)[C];2001年
3 孟海利;郭峰;;爆破地震波主频率的试验研究[A];第八届全路工程爆破学术会议铁道工程爆破论文集[C];2009年
4 朱寿民;;夏普(SHARP)PC-1500计算机用于营养调查数据处理的程序设计的研究[A];中国营养学会第四届全国学术会议论文摘要汇编[C];1984年
5 朱元清;佟玉霞;;地震台阵数据处理研究[A];2000年中国地球物理学会年刊——中国地球物理学会第十六届年会论文集[C];2000年
6 洪小涵;文学锋;;机务统计信息管理系统[A];推进铁路新跨越加快经济大发展——中国科协2004年学术年会铁道分会场论文集[C];2004年
7 黄建明;;港口航道工程中精密水下地形测量的实现[A];港口工程分会技术交流文集[C];2005年
8 董峰;冯士刚;汲业;唐一源;;CAM方法在磁共振数据处理中的应用[A];第十次中国生物物理学术大会论文摘要集[C];2006年
9 郑元成;;浅议高层建筑房产测量方法[A];中国测绘学会2006年学术年会论文集[C];2006年
10 李新虎;祁云望;;坑透法在象山煤矿21302工作面中的应用[A];煤矿安全与地球物理学术研讨会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 王婷;IDC增值服务:网站日志分析[N];计算机世界;2001年
2 ;日志分析中的五个误区[N];网络世界;2004年
3 浙江 星之海洋;活用DW的数据导入、排序与美化[N];电脑报;2002年
4 记者 许彦鸿;“五普”数据处理要万无一失[N];中国信息报;2000年
5 本报通讯员;兰州办积极探索海量数据处理新模式[N];中国审计报;2007年
6 记者 郝小爱;数据处理有了好帮手[N];中国信息报;2000年
7 上海 邹伸;Excel的数据导入[N];中国电脑教育报;2000年
8 徐鹏程;数据导入的五大步骤[N];中国计算机报;2008年
9 重庆 航行者;IIS的安全[N];电脑报;2002年
10 张桂琛;摩托罗拉推出新型语音和数据处理引擎[N];通信产业报;2001年
中国博士学位论文全文数据库 前10条
1 饶翔;基于日志的大规模分布式软件系统可信保障技术研究[D];国防科学技术大学;2011年
2 王玲;网络服务系统日志安全分析技术研究[D];中国科学院研究生院(计算技术研究所);2006年
3 许献磊;车载探地雷达系统的开发及其应用实验研究[D];中国矿业大学(北京);2013年
4 张立群;支持业务流程建模的块结构流程挖掘技术的研究[D];山东大学;2010年
5 熊智新;基于小波变换的化学谱图数据处理[D];浙江大学;2004年
6 张新宇;联邦式仿真运行数据处理的共同支持框架研究[D];国防科学技术大学;2009年
7 陶鹍;干涉合成孔径雷达数据处理及仿真研究[D];中国科学院研究生院(电子学研究所);2003年
8 张勇;粗糙集—神经网络智能系统在浮选过程中的应用研究[D];大连理工大学;2006年
9 雍小嘉;采用知识发现技术判断方剂功效的方法研究[D];成都中医药大学;2006年
10 岳焕印;基于小波变换的干涉SAR数据处理方法研究[D];中国科学院研究生院(遥感应用研究所);2002年
中国硕士学位论文全文数据库 前10条
1 蒋慧斐;海量日志分布式处理系统的研究与应用[D];北京交通大学;2014年
2 杨华;可视化日志分析系统的研究与实现[D];西安电子科技大学;2010年
3 范惊;高精度的程序日志解析技术研究[D];上海交通大学;2013年
4 薛文娟;基于层次聚类的日志分析技术研究[D];山东师范大学;2013年
5 尚魏;多源日志安全信息的融合技术研究[D];哈尔滨工程大学;2010年
6 周兵斌;NIDS警报日志分析系统设计与实现[D];合肥工业大学;2004年
7 张旭晖;面向SaaS模式的应用软件日志架构设计与实现[D];燕山大学;2010年
8 宋爱青;基于Hadoop的日志分析系统的设计与实现[D];中国地质大学(北京);2012年
9 章伟星;基于Hadoop的海量广告日志分析系统的设计与实现[D];哈尔滨工业大学;2013年
10 邓海川;日志分析系统的任务调度方法研究[D];南京航空航天大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026