收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于大数据与机器学习的Web日志分析系统的设计与实现

苏星  
【摘要】:随着互联网Web技术的快速发展,互联网的用户人数在成指数型级别增长。在互联网服务用户的同时,产生了海量的Web日志信息,这些信息构成了大量的数据,隐藏着庞大的商业资源和利用价值。同时,呈爆炸式的用户人群在浏览互联网Web页面时,通过自身的经验与搜索去主动查询自己所需的资料,往往在繁琐的操作后得不到想要的目标,好像湮没在这海量的信息之中。因此,大数据技术与数据挖掘在很大程度上解决此问题。本文基于大数据技术与数据挖掘技术,研究内容主要有以下几个方面:对大数据和分布式技术进行了研究。主要深入的研究了Hadoop/Spark大数据平台。Google公司在大数据时代引领了潮流,其开发的大数据分布式平台Hadoop已经生成了完整的生态系统,得到了广泛的应用,其中MapReduce(MR)编程模型与HDFS最为常用。Spark是UC Berkeley AMP 1ab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的的算法。对基于深度学习的n1p/Word2Vec算法技术衍生的预测模型进行了研究。首先,word2vec算法可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。在日志挖掘过程中,我们可以选择利用其组成的会话序列探究各个日志的相似性。对于具体的会话序列的生成方法和序列中上下文的选择、训练方法,本文在研究了相关的词频加权算法之后,在word2vec的基础上做了改进,从而具备了对每个日志有相似性运算与结论预测的理论基础。对于基于Spark/HDFS的日志分析平台进行了详细的设计。根据对相关大数据分布式平台与算法的深入学习与研究,本文将涉及一个基于Spark/HDFS的日志挖掘与分析平台。该平台的组成模块有以下几个:日志预处理模块,日志存储模块,日志挖掘模块。日志预处理模块采用Spark平台实现;日志存储模块使用Hadoop中的HDFS实现。日志挖掘模块采用改进后的Word2Vec算法进行实现,由于是分布式处理,对算法流程设计使其能在分布式平台运行。最后对基于大数据平台的Web日志分析平台进行功能与性能的测试,通过对单机系统以及其他模型的对比,证明了该系统在处理大数据量的Web日志方面具有优势。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 钱秀槟;刘国伟;李锦川;蔡磊;;Web应用日志分析系统分析与设计[J];计算机安全;2011年06期
2 黄健青;黄浩;;Web日志分析中数据预处理的设计与实现[J];河南科技大学学报(自然科学版);2009年05期
3 焦文彬,及俊川,丛培民;基于DTS的Web日志分析系统[J];微型机与应用;2004年12期
4 刘坤峰;;开源软件构建WEB日志分析和网络性能监测系统[J];中国教育网络;2008年07期
5 罗冬梅;;基于改进k-prototypes算法的Web日志分析系统的设计与实现[J];吉林工程技术师范学院学报;2015年05期
6 马勇;赵学明;孙波;;基于Aprior算法的Web日志分析方法[J];信息网络安全;2012年08期
7 钱秀槟;李锦川;方星;;信息安全事件定位中的Web日志分析方法[J];信息网络安全;2010年06期
8 聂虎;;基于Elastic Stack的Web日志分析系统设计与实现[J];中国新通信;2020年19期
9 高扬;;数据挖掘对Web日志分析的应用研究[J];科技信息;2009年09期
10 褚龙现;陈婉冰;;基于Hadoop的Web日志分析系统设计[J];信息与电脑(理论版);2020年20期
11 王子政;姚卫东;;基于用户web日志分析的推荐系统的应用研究[J];军民两用技术与产品;2015年19期
12 陈阳,崔英敏;基于WEB日志的数据挖掘在校园网应用中的探索[J];广东轻工职业技术学院学报;2005年01期
13 刘佐达;许静芳;陈茂科;李星;;基于Web日志分析的校园网受众分析[J];厦门大学学报(自然科学版);2007年S2期
14 徐娟娟;朱成亮;;NOSQL在WEB日志分析中的应用[J];中国新技术新产品;2011年10期
15 刘永增;张晓景;李先毅;;基于Hadoop/Hive的web日志分析系统的设计[J];广西大学学报(自然科学版);2011年S1期
16 孙鲁淼;;基于分布式Web应用的大数据日志分析方法研究[J];电脑知识与技术;2019年03期
17 张兴科;;数据挖掘在Web日志分析中的应用[J];微处理机;2009年03期
18 江三锋;王元亮;;基于Hive的海量web日志分析系统设计研究[J];软件;2015年04期
19 朱靖君;吴海燕;高国柱;程志锐;;一种基于日志分析的Web负载测试方法[J];计算机工程;2010年23期
20 丁敬达;;高校图书馆Web日志分析研究[J];科技情报开发与经济;2006年06期
中国重要会议论文全文数据库 前20条
1 耿涛;;Web日志分析在电子数据取证中的应用[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
2 马勇;赵学明;孙波;;基于Aprior算法的Web日志分析方法[A];第27次全国计算机安全学术交流会论文集[C];2012年
3 付伟;白永超;辛阳;;一种基于Hadoop和K-means的Web日志分析方案的设计[A];第十九届全国青年通信学术年会论文集[C];2014年
4 谢一兵;;广播播出系统日志分析[A];全国互联网与音视频广播发展研讨会(NWC)暨中国数字广播电视与网络发展年会(CCNS)论文集(2020年特辑)[C];2020年
5 蔡猷花;张岐山;;Web日志挖掘及其在电子商务领域的应用[A];第10届计算机模拟与信息技术会议论文集[C];2005年
6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年
7 习慧丹;;Web日志挖掘探析[A];第三届全国软件测试会议与移动计算、栅格、智能化高级论坛论文集[C];2009年
8 周涛;;基于数据挖掘的入侵检测日志分析技术研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年
9 易虹;许德刚;;Web数据挖掘的研究与应用[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
10 戴琦;;Web上的数据挖掘[A];全国计算机网络应用年会论文集(2001)[C];2001年
11 郭佳豪;乔秀全;;基于Web的目标检测神经网络协同计算方法的研究与实现[A];2019中国信息通信大会论文集(CICC 2019)[C];2019年
12 万志利;单爽;;基于Web服务的单点登录研究与实现[A];全国冶金自动化信息网2016年会论文集[C];2016年
13 刘丽;方兰;李远玲;崔益民;;基于故障矩阵的Web服务故障诊断框架[A];中国通信学会第六届学术年会论文集(上)[C];2009年
14 唐章蔚;;基于网络的Web虚拟实验室建构理论探索[A];计算机与教育:应用促进学与教创新——全国计算机辅助教育学会第十三届学术年会论文集[C];2008年
15 章国英;叶春阳;邓秋军;;试论远程网络教学及其Web页面设计[A];计算机与教育:迎接21世纪教育信息化的挑战——全国计算机辅助教育学会第九届学术年会[C];1999年
16 杨青;;基于Web的远程测试系统的设计探讨[A];计算机与教育——全国计算机辅助教育学会第十届学术年会论文集[C];2001年
17 李树岩;潘学标;;人体舒适度“气候指数”Web评价系统的建立与应用[A];第26届中国气象学会年会气候环境变化与人体健康分会场论文集[C];2009年
18 王斌;刘大成;;Web性能测试中认识误区的分析与研究[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年
19 杨弘曧;;基于Web的基层航标站综合管理信息系统的构建研究[A];中国航海学会航标专业委员会沿海航标学组、无线电导航学组、内河航标学组年会暨学术交流会论文集[C];2009年
20 王昇;何新贵;;面向对象数据库主动机制在WEB中的应用[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
中国博士学位论文全文数据库 前20条
1 王蕊;基于日志的SaaS软件运行时性能问题的识别与诊断方法[D];武汉大学;2019年
2 杨钤雯;序列模式挖掘方法及Web使用挖掘研究[D];天津大学;2010年
3 余骞;Web社区推荐方法与系统研究[D];武汉大学;2015年
4 马奇辰;Web舆情事件因果知识流模型及用户行为分析方法[D];上海大学;2018年
5 张量;基于语义Web服务的虚拟物流企业组建关键技术研究[D];大连海事大学;2009年
6 刘振鹏;基于对等网络的Web服务选择机制研究[D];天津大学;2009年
7 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年
8 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
9 孙慧峰;基于协同过滤的个性化Web推荐[D];北京邮电大学;2012年
10 刘莉平;动态Web服务组合关键技术研究[D];中南大学;2011年
11 毛军;Web信息服务中受控语言研究[D];中国科学院研究生院(文献情报中心);2002年
12 胡勤友;Web上的多主体系统若干关键技术研究[D];复旦大学;2003年
13 龚晓庆;基于Web服务的分布式工作流管理系统研究[D];西北大学;2004年
14 吴泽彬;基于Web服务的分布式仿真关键技术研究[D];南京理工大学;2007年
15 马德新;基于Web的物联网体系结构和感知域关键技术研究[D];北京邮电大学;2014年
16 葛艳;基于Web服务的服装供应链快速响应系统研究[D];东华大学;2013年
17 刘安;Web服务驱动的业务流程的容错性研究[D];中国科学技术大学;2008年
18 张杨;语义Web服务组合的可信性度量研究[D];重庆大学;2011年
19 秦杰;Web环境中半结构化数据存储与查询技术研究[D];国防科学技术大学;2005年
20 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前20条
1 苏星;基于大数据与机器学习的Web日志分析系统的设计与实现[D];北京邮电大学;2020年
2 付钊;基于安全性的Web日志分析系统的设计与实现[D];华南理工大学;2016年
3 李靖;Web日志分析系统的设计与实现[D];黑龙江大学;2013年
4 张校慧;基于Web日志与聚类分析的协同过滤算法的设计与实现[D];河南大学;2008年
5 龚立航;基于海量日志的服务器故障分析技术研究[D];上海交通大学;2018年
6 孙书亚;日志诱导下的流程变化挖掘方法研究[D];安徽理工大学;2019年
7 鱼有渊;音乐类移动应用的日志收集分析系统设计与实现[D];北京交通大学;2019年
8 周恒敏;基于ELASTICSEARCH在企业大数据中的应用[D];对外经济贸易大学;2019年
9 杨恺;基于大数据的日志采集分析系统的研究与实现[D];华北电力大学;2019年
10 李赵贤;基于流式处理技术的日志分析系统的设计与实现[D];上海交通大学;2016年
11 孔令棋;基于Hadoop的上网日志分析系统的设计与实现[D];安徽工业大学;2019年
12 庞洁;基于流计算的集群日志实时分析系统的设计与实现[D];哈尔滨工业大学;2019年
13 郭舒婷;多粒度日志自动解析方法研究[D];南京邮电大学;2019年
14 徐战辉;CDN海量日志实时分析问题研究与平台开发[D];西安电子科技大学;2019年
15 吴鑫泉;自主容器云平台日志的大数据分析研究与实现[D];中国电子科技集团公司电子科学研究院;2019年
16 时熙然;基于日志的异常检测研究[D];中国民航大学;2019年
17 李娟;分布式应用软件的日志分析系统的设计与实现[D];东南大学;2018年
18 蔡波;云环境中用户日志采集和处理算法的研究与实现[D];南京邮电大学;2019年
19 王帅;基于日志的微服务化系统监测与故障预测的研究与实现[D];西南交通大学;2019年
20 杜思忠;基于日志监控的异常检测技术与异常监控系统[D];上海交通大学;2016年
中国重要报纸全文数据库 前19条
1 ;日志分析中的五个误区[N];网络世界;2004年
2 本报记者 赵明;新一代日志分析系统为企业运维减负[N];中国计算机报;2016年
3 中科院计算所 李洋;使用Webalizer进行网络流量日志分析[N];计算机世界;2006年
4 陈代寿;网管的四两拨千斤[N];中国计算机报;2004年
5 ;Docker支持更深人的容器日志分析[N];中国信息化周报;2016年
6 西北大学计算机系 宗锋;Tomcat——Web开发轻平台[N];计算机世界;2002年
7 IBM大数据专家 James Kobielus 范范 编译;大数据日志分析借机器学习腾飞[N];网络世界;2014年
8 王婷;IDC增值服务:网站日志分析[N];计算机世界;2001年
9 华;全新Novell亮相 Novell OneNet重拳出击Web服务[N];中国计算机报;2002年
10 边 一;保证Web服务安全的SAML[N];网络世界;2002年
11 本报记者 杨琪;郑志刚:Web来尽孝[N];中国科学报;2012年
12 记者 丁佳;首个基于WEB微波遥感领域知识库发布[N];中国科学报;2016年
13 重庆 航行者;IIS的安全[N];电脑报;2002年
14 记者 吴姝静;民革中央网站移动WEB端上线[N];团结报;2021年
15 覃进文;在Windows 2000&&2003下快速安装Webalizer[N];中国电脑教育报;2003年
16 记者 闻丹岩;Cisco与世纪互联让利用户[N];中国计算机报;2001年
17 韩涛;Web应用负载测试自动化[N];计算机世界;2006年
18 shotgun;入侵检测初步(上)[N];电脑报;2001年
19 西安交通大学 夏汶钰;如何构建基于Web的呼叫中心[N];计算机世界;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978