收藏本站
《南京大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop的大型网站海量数据的统计与应用

吴金虎  
【摘要】:随着互联网的飞速发展,人们对于网络的需求越来越广。然而,用户对互联网的需求却各不相同,往往体现出一定的偏好性。对于一个网站来讲,用户的一些行为在网站的后台留下了日志数据,并且这些数据是海量的。对这些海量数据进行处理与统计是分析用户行为特征、获取用户属性、检测广告投放效果最好的办法。 对于海量数据的处理,已经有了许多的研究,一些开源的软件框架不断地被开发出来。最流行的就是Hadoop分布式软件框架,它可以高效地处理海量数据。其中,Hadoop内置的Hive数据仓库框架同样可以高效地处理海量数据。目前,Hadoop得到了工程研发界的普遍关注。 某大型网站的用户行为分析项目就是为了分析用户行为特征而产生的。将通过这些海量数据的处理,进而挖掘用户的行为特征、用户属性和广告投放属性。在该项目中,利用Hadoop和Hive来处理这些海量数据。该项目主要分为以下几个部分:用户人群分类、总体数据统计、广告数据统计、cookie重合度统计、品牌探针和全网路统计。得到这些部分的统计结果后,进入数据分析阶段,挖掘相关信息,帮助制定运营策略。 本文详细介绍了这几个部分的设计与实现过程,并针对有的部分给出了简要的分析。首先介绍了项目背景和Hadoop的相关技术,然后详细介绍了项目目标和数据的一些细节。接着详细介绍了每个部分的作用以及如何使用Hadoop来帮助完成海量数据的处理。最后,对本文进行了简单的总结,指出不足之处和可以进行优化的地方。
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.092;TP311.5

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 叶小榕;邵晴;;基于增强现实和位置服务的手机广告系统[J];科技导报;2013年04期
中国硕士学位论文全文数据库 前1条
1 付倩文;基于Hadoop/hive架构的网络身份识别系统的设计与实现[D];南京邮电大学;2013年
【参考文献】
中国期刊全文数据库 前4条
1 孙道志;;统计分析中对应分析方法应用[J];黄山学院学报;2006年03期
2 刘兴华;数据挖掘技术及其应用研究[J];辽宁师范大学学报(自然科学版);2002年02期
3 王光宏,蒋平;数据挖掘综述[J];同济大学学报(自然科学版);2004年02期
4 李克均,王爱英,冯丽云;对应分析在探索交叉数据表行、列变量关系时的应用[J];中国卫生统计;2005年05期
中国硕士学位论文全文数据库 前5条
1 贾文娟;基于hive分布式计算与数据挖掘的关联性营销的设计与实现[D];北京交通大学;2011年
2 杨宸铸;基于HADOOP的数据挖掘研究[D];重庆大学;2010年
3 霍树民;基于Hadoop的海量影像数据管理关键技术研究[D];国防科学技术大学;2010年
4 朱珠;基于Hadoop的海量数据处理模型研究和应用[D];北京邮电大学;2008年
5 夏祎;Hadoop平台下的作业调度算法研究与改进[D];华南理工大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 汤亚玲;秦峰;;面向对象程序设计课程教学探究[J];安徽工业大学学报(社会科学版);2008年06期
2 李珺;;基于Hadoop云计算模型探究[J];信息安全与技术;2011年06期
3 韩亚洪,赵元庆;动态可伸缩向量图的设计与实现[J];安阳师范学院学报;2005年05期
4 余坚;何广平;;基于Java的材料试验机测控软件的设计研究[J];北方工业大学学报;2010年03期
5 陈军,赵恒永;数据结构中链式结构的Java实现[J];北京化工大学学报(自然科学版);2002年05期
6 马小军;王满;;基于Android平台的手机学吉他软件的开发[J];北京联合大学学报(自然科学版);2012年01期
7 王洪涛;张楠;刘玮;;车险电销客户投保体验迫切改进点的数据挖掘[J];保险研究;2011年10期
8 郭斌,曾雅琳;基于JAVA的网络通信软件的设计与实现[J];江西师范大学学报(自然科学版);2005年04期
9 李红梅;王坚;李巍;赵丹;刘壮;;基于Spring+Hibernate的开发方法及实例[J];吉林大学学报(信息科学版);2008年06期
10 张彦敏;段洪芳;师淑娟;余志伟;;使用JDBC存取ORACLE数据库中的图片数据[J];测绘标准化;2003年04期
中国重要会议论文全文数据库 前9条
1 孙香花;;基于SIP远程医疗系统TCS的设计与研究[A];2008年计算机应用技术交流会论文集[C];2008年
2 黄孜祺;肖健;陈海玲;;数据挖掘技术的比较[A];广西计算机学会2008年年会论文集[C];2008年
3 董龙飞;唐文忠;;灵活查询技术研究和实现[A];2003中国控制与决策学术年会论文集[C];2003年
4 王晶;;炼钢生产管控系统应用及系统研究[A];中国计量协会冶金分会2011年会论文集[C];2011年
5 胡伟;孙德翔;程翔;;试论数据挖掘技术在智能化航空维修管理系统中的应用[A];第四届长三角科技论坛航空航天与长三角经济发展分论坛暨第三届全国航空维修技术学术年会论文集[C];2007年
6 魏新;廖闻剑;彭艳兵;;基于数据挖掘的校园网络行为分析[A];第十届中国科协年会信息化与社会发展学术讨论会分会场论文集[C];2008年
7 亓洪标;李安;胡柏青;;基于Web的导航设备维修决策支持系统研究[A];2006年船舶通讯导航学术会议论文集[C];2006年
8 朱湘;金松昌;贾焰;;一种基于Hadoop平台的海量Web数据挖掘系统研究与实现[A];第九届中国通信学会学术年会论文集[C];2012年
9 杨雪榕;范丽;王兆魁;;武器装备体系平行试验概念与方法的讨论[A];2013第一届中国指挥控制大会论文集[C];2013年
中国博士学位论文全文数据库 前10条
1 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
2 李宝红;对应分析方法及其在肿瘤学中的应用研究[D];中南大学;2011年
3 高联雄;智能公交系统数据挖掘研究与应用[D];北京邮电大学;2011年
4 张颖南;军工企业军民一体化的动因及形成机理研究[D];哈尔滨工业大学;2010年
5 彭颖;基于退化隐式半马尔科夫模型的设备健康预测及系统性维护策略研究[D];上海交通大学;2011年
6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
7 李彭军;医学影像云服务平台基础架构研究与实践[D];南方医科大学;2011年
8 张怀清;基于Internet的林业资源环境信息服务系统(FINFOSYS)的研究[D];中国林业科学研究院;2001年
9 王庆东;基于粗糙集的数据挖掘方法研究[D];浙江大学;2005年
10 樊明辉;空间数据挖掘及其可视化系统若干关键技术研究[D];中国科学院研究生院(遥感应用研究所);2006年
中国硕士学位论文全文数据库 前10条
1 姜雪飞;基于SNMP的网络安全态势可视化技术[D];哈尔滨工程大学;2010年
2 李萍;基于GeoTools的车辆监控系统的设计与实现[D];大连理工大学;2010年
3 刘晓霞;数据挖掘技术在高校教学管理系统中的应用研究[D];中国海洋大学;2010年
4 吴贵鑫;云计算中的MapReduce并行编程模式研究[D];河南理工大学;2010年
5 倪维志;基于轻量级构架技术的校友网设计与实现[D];华东师范大学;2010年
6 罗芳;基于聚类和压缩矩阵的加权关联规则算法的研究与应用[D];华东师范大学;2010年
7 阳明亮;省烟草电子商务系统的设计与实现[D];华东师范大学;2010年
8 韩飞;基于OPhone平台的可视化开发工具的设计与实现[D];华东师范大学;2010年
9 许美芳;基于无线网络的医院临床信息系统[D];华东师范大学;2010年
10 刁丽娟;基于Petri网的数据挖掘网格中作业调度的研究[D];沈阳理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 孙其博;刘杰;黎羴;范春晓;孙娟娟;;物联网:概念、架构与关键技术研究综述[J];北京邮电大学学报;2010年03期
2 丁雪梅;王伟;;我国无线广告的可持续发展研究[J];长春理工大学学报(社会科学版);2010年02期
3 白果;贾玉文;;数据仓库中ETL技术的研究与改进[J];甘肃科技;2012年19期
4 ;安全智能解决方案:削弱网络犯罪影响的关键[J];计算机安全;2012年11期
5 姜奇平;;大数据时代到来[J];互联网周刊;2012年02期
6 张艳秋;徐六通;王柏;;数据集成中不一致性数据相似性比较的加权算法[J];计算机科学;2003年08期
7 刘润达;王卷乐;杜佳;;OpenID:一种开放的数字身份标识管理及其认证框架[J];计算机应用与软件;2008年12期
8 黄有群;姬永成;李丹;;基于ARToolKit工具的增强现实交互操作研究[J];计算机与现代化;2008年09期
9 肖慧;;手机广告的传播特征及传播模式探讨[J];科技传播;2009年03期
10 刘伟;郭丽;闫晋锋;;数据库集群服务器系统性能瓶颈分析[J];科技信息(科学教研);2007年33期
中国硕士学位论文全文数据库 前6条
1 叶文宸;基于hive的性能优化方法的研究与实践[D];南京大学;2011年
2 周一舟;移动增强现实技术的应用研究[D];电子科技大学;2011年
3 付峥;智能手机二维码识别系统设计与实现[D];电子科技大学;2011年
4 吴娟;一个视频网站数据统计系统的设计与实现[D];南京大学;2012年
5 祝洪娇;基于Android平台的位置服务系统的设计与实现[D];北京交通大学;2012年
6 盛珍;基于Android平台的LBS应用系统开发技术研究[D];云南大学;2012年
【二级引证文献】
中国期刊全文数据库 前2条
1 金安;程承旗;宋树华;陈波;;基于Geohash的面数据区域查询[J];地理与地理信息科学;2013年05期
2 赵茜;;国际经验对中国手机广告的启发[J];西部广播电视;2013年11期
【二级参考文献】
中国期刊全文数据库 前10条
1 李德仁,龚健雅,李京伟,王密;中国空间数据基础设施建设[J];测绘通报;2002年11期
2 申胜利;李华;刘聚海;;基于ArcSDE的栅格数据存储与处理[J];测绘通报;2007年09期
3 黄进,尹治本;关联规则挖掘的Apriori算法的改进[J];电子科技大学学报;2003年01期
4 刘三民;王杰文;;空间数据存储管理研究综述[J];电脑与信息技术;2006年03期
5 张明波,申排伟,陆锋,程昌秀;空间数据引擎关键技术与应用分析[J];地球信息科学;2004年04期
6 李光师;徐全生;史新慧;;基于Oracle 10g Spatial的空间栅格数据的存储与管理[J];地理空间信息;2007年02期
7 欧阳自远;李春来;邹永廖;张洪波;吕昌;刘建忠;刘建军;左维;苏彦;温卫斌;边伟;赵葆常;王建宇;杨建峰;常进;王焕玉;张晓辉;王世金;汪敏;任鑫;牟伶俐;孔德庆;王晓倩;王芳;耿良;张舟斌;郑磊;朱新颖;郑永春;李俊铎;邹小端;许春;施硕彪;高亦菲;高冠男;;绕月探测工程的初步科学成果[J];中国科学:地球科学;2010年03期
8 李德毅,孟海军,史雪梅;隶属云和隶属云发生器[J];计算机研究与发展;1995年06期
9 于蕾;刘大有;高滢;田野;;改进SPRINT算法及其在分布式环境下的研究[J];吉林大学学报(理学版);2008年06期
10 李雄飞,苑森淼,董立岩;基于相联规则的数据挖掘理论[J];吉林工业大学自然科学学报;2000年02期
中国硕士学位论文全文数据库 前7条
1 张剑飞;贝叶斯网络学习方法和算法研究[D];东北师范大学;2005年
2 丁卫嘉;基于ORACLE GeoRaster的遥感影像库技术研究[D];中国科学院研究生院(遥感应用研究所);2006年
3 郝思宝;数字正射影像建库关键技术研究[D];南京师范大学;2007年
4 万至臻;基于MapReduce模型的并行计算平台的设计与实现[D];浙江大学;2008年
5 刘露;全球海量遥感影像数据的分布式管理技术研究[D];国防科学技术大学;2007年
6 朱珠;基于Hadoop的海量数据处理模型研究和应用[D];北京邮电大学;2008年
7 邓自立;云计算中的网络拓扑设计和Hadoop平台研究[D];中国科学技术大学;2009年
【相似文献】
中国期刊全文数据库 前3条
1 谭艳霞;徐珂;;基于大型网站的搜索引擎网页更新方法研究[J];微计算机信息;2005年26期
2 闫海珍;李绪成;;基于统计的大型网站智能导航系统研究[J];福建电脑;2010年03期
3 俞华锋;;Memcached在大型网站中的应用[J];科技信息(科学教研);2008年01期
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026