收藏本站
《电子科技大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop海量数据处理关键技术研究

车斌  
【摘要】:互联网从诞生至今经历了接近半个世纪的时间,已深入到我们生活的方方面面。如今,在经历了WEB2.0时代之后,互联网正在向第三代——网络服务个性化。互联网的个性化演进过程中引发了数据的海量化,面对如此海量化的数据传统的单台超级服务器也逐渐显得力不从心,海量数据的处理逐渐成为一个棘手的难题。海量数据的产生与处理既是挑战也是机遇,海量数据为数据挖掘提供了丰富的数据源,从中挖掘出的信息更加具有商业价值。基于以上情况,今天,海量数据的处理已成为各大互联网公司投资研究的热门技术,中小企业也争相投入到这场数据盛宴中来。 2006年Google所提出的云计算概念为海量数据处理的研究指明了方向,Apache基金会所研发的开源Hadoop云平台的开源特性更是为广大研究者带来了低成本海量数据处理的曙光。传统的数据处理方法与技术在单台服务器情况下表现优越,但面对云平台的分布式处理模式已不再适应。将传统的数据处理方法进行分布式计算模式改造,并在此基础上进行算法改进与性能的提升对于在海量数据处理的研究将有重大的意义。 本文首先从云计算理论出发,介绍了云计算的发展历程与技术体系,并对现有多款云计算平台做了分析与对比。之后选定Hadoop开源云平台作为项目的基础研究平台,对其进行深入的分析与讨论。接下来对现有数据处理技术进行讨论。 文章第三、四部分是项目研究的核心内容,其主要内容为: 1)第三部分主要对海量web日志数据预处理模型进行研究。文章在总结传统经典预处理模型的基础上提出基于二次清洗模型与动态阈值算法的海量Web日志预处理模型,并对其做了详细描述。 2)第四部分内容为基于并行关联规则算法的海量数据挖掘研究,主要以Apriori算法的并行算法为切入点,分析传统CD、DD算法的优势及不足之处,并提出改进方案,完成改进型Apriori数据挖掘算法的描述。 在文章的第五部分对三、四部分所提出的改进及优化做仿真实验,并根据实验结果进行分析,最后得出实验结论。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP311.13

手机知网App
【参考文献】
中国期刊全文数据库 前9条
1 吴吉义;平玲娣;潘雪增;李卓;;云计算:从概念到平台[J];电信科学;2009年12期
2 陈全;邓倩妮;;云计算及其关键技术[J];计算机应用;2009年09期
3 匡胜徽;李勃;;云计算体系结构及应用实例分析[J];计算机与数字工程;2010年03期
4 张鹏;;IBM在华践行“蓝云6+1”计划[J];通信世界;2009年20期
5 辛军;陈康;郑纬民;;虚拟化的集群资源管理技术研究[J];计算机科学与探索;2010年04期
6 刘越;;云计算综述与移动云计算的应用研究[J];信息通信技术;2010年02期
7 于飞;丁华福;姜伦;;Web日志挖掘中数据预处理技术的研究[J];计算机技术与发展;2010年05期
8 孙广中;肖锋;熊曦;;MapReduce模型的调度及容错机制研究[J];微电子学与计算机;2007年09期
9 张亚勤;;与云共舞——微软云计算的新进展[J];中国计算机用户;2009年04期
【共引文献】
中国期刊全文数据库 前10条
1 杨振贤;;基于云计算的安全数据存储研究与设计[J];信息安全与技术;2011年10期
2 赵凯;;基于云存储的医院PACS系统存储设计[J];信息安全与技术;2012年04期
3 王继鹏;;高等教育云计算服务平台构建策略初探[J];安阳师范学院学报;2011年05期
4 李建卓;;云计算及其发展综述[J];宝鸡文理学院学报(自然科学版);2010年03期
5 邹朝斌;卜文军;;云计算在超市物流系统的应用研究[J];才智;2010年36期
6 罗飞;;云计算推动中小型企业信息化研究[J];中国城市经济;2012年01期
7 张恺;;基于云计算的电子商务应用与实现[J];重庆科技学院学报(自然科学版);2011年05期
8 杨振东;郑冀;刘光霆;;云计算在军事后勤领域的应用研究[J];中国储运;2011年08期
9 文杰;;基于云计算的数字档案馆建设研究[J];档案与建设;2011年01期
10 龚强;;云计算及其在地理信息工程中的应用[J];测绘与空间地理信息;2012年01期
中国重要会议论文全文数据库 前10条
1 郭捷夫;;基于云计算模型的绿色IT数据中心构建方案研究[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
2 王诗丛;郑立华;李民赞;赵凯;;基于云计算平台的农田GIS模块的开发和实现[A];中国农业工程学会2011年学术年会论文集[C];2011年
3 安聪;毛军文;;实验室信息管理系统(LIMS)的发展现状及趋势分析[A];2011第三届全国医学科研管理论坛暨江苏省医学科研管理学术年会论文汇编[C];2011年
4 郭英鹏;;云计算环境下的数据中心网络发展初探[A];广东通信2010青年论坛优秀论文集[C];2010年
5 肖玺;史殿习;丁博;;MCCM:一种基于代理的移动云计算中间件的设计与实现[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
6 丁辉;赵炜妹;;基于云计算应用一级部署的研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年
7 吴吉义;沈千里;章剑林;沈忠华;平玲娣;;云计算:从云安全到可信云[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
8 李杰;王爱民;于金刚;;智能电网中云计算技术的应用研究[A];中国智能电网学术研讨会论文集[C];2011年
9 石红;;基于云计算概念的企业信息化模式研究[A];第九届全国会计信息化年会论文集(上)[C];2010年
10 潘松柏;张云勇;陈清金;魏进武;;云计算安全需求和策略[A];2010年全国通信安全学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 吴吉义;基于DHT的开放对等云存储服务系统研究[D];浙江大学;2011年
2 李俊超;面向服务的云会议系统架构及其关键技术研究[D];中国科学技术大学;2011年
3 方雷;基于云计算的土地资源服务高效处理平台关键技术探索与研究[D];浙江大学;2011年
4 蔡章利;基于BPMN的业务流程一体化建模方法研究与实现[D];重庆大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 刘艺;应急云环境下任务导向的应急组织敏捷协作机制研究[D];暨南大学;2012年
7 吴振华;梯度异质材料实体优化设计及成型规划方法研究[D];合肥工业大学;2012年
8 张浩;配电网协同保护与自愈控制研究[D];北京交通大学;2012年
9 黄兰秋;基于云计算的企业竞争情报服务模式研究[D];南开大学;2012年
10 周涛;基于策略的服务组合关键技术研究及应用[D];浙江大学;2012年
中国硕士学位论文全文数据库 前10条
1 张士勋;云计算在科学计算中的应用研究[D];郑州大学;2010年
2 孔楠;基于云计算平台的商业服务模式研究[D];上海外国语大学;2010年
3 康兴元;面向模具企业的注塑模设计知识网络化管理系统研究[D];大连理工大学;2010年
4 吴贵鑫;云计算中的MapReduce并行编程模式研究[D];河南理工大学;2010年
5 许信;云存储系统服务质量控制与可靠性技术研究[D];浙江大学;2011年
6 陈洁;基于云计算的Wiki网站的构建[D];安徽大学;2010年
7 申志强;基于云计算的IPv6协议应用研究[D];东北财经大学;2010年
8 钱戴明;视频及多媒体内容管理系统的研究与实现[D];东华大学;2011年
9 贺鹏;云计算的开发云的研究与实现[D];电子科技大学;2011年
10 杨义彬;基于云计算的分布式处理框架的研究与设计[D];电子科技大学;2011年
【二级参考文献】
中国期刊全文数据库 前7条
1 殷贤亮;张为;;Web使用挖掘中的一种改进的会话识别方法[J];华中科技大学学报(自然科学版);2006年07期
2 赵伟,何丕廉,陈霞,谢振亮;Web日志挖掘中的数据预处理技术研究[J];计算机应用;2003年05期
3 陈国良;孙广中;徐云;龙柏;;并行计算的一体化研究现状与发展趋势[J];科学通报;2009年08期
4 陈康;郑纬民;;云计算:系统实例与研究现状[J];软件学报;2009年05期
5 王书舟,高中文;Web使用挖掘技术在电子商务中的应用[J];微机发展;2003年02期
6 熊忠阳;周亚峰;;Web访问挖掘的预处理技术的研究[J];计算机技术与发展;2007年08期
7 张亚勤;;与云共舞——微软云计算的新进展[J];中国计算机用户;2009年04期
【相似文献】
中国期刊全文数据库 前10条
1 王振宇;郭力;;基于Hadoop的搜索引擎用户行为分析[J];计算机工程与科学;2011年04期
2 Peter Baumann,赵曜;海量数据处理与多维数据库[J];中文信息;1998年05期
3 AlixL.Paultre;用全息技术实现海量数据存储[J];今日电子;2002年08期
4 马照亭;李成名;王继周;潘懋;;海量地形可视化的研究现状与前景展望[J];测绘科学;2006年01期
5 罗勇;何玉珠;;外场高速数据采集系统的研制[J];电子测量技术;2006年02期
6 周婧;王意洁;阮炜;李思昆;;面向海量数据的数据一致性研究[J];计算机科学;2006年04期
7 吴丽娟;郑冕;张彩明;;海量空间数据点k近邻的快速搜索算法[J];小型微型计算机系统;2007年01期
8 吴飞;解智强;赵俊三;;海量数据下三维影像图的制作与关键问题探讨——以昆明市域为例[J];测绘信息与工程;2007年03期
9 王新筠;;数据挖掘技术在图书馆自动化管理系统中的应用[J];科技情报开发与经济;2007年26期
10 王喆;潘懋;戴婉薇;郭艳军;;支持海量数据操作的Oracle数据引擎的设计与实现[J];地理与地理信息科学;2008年02期
中国重要会议论文全文数据库 前10条
1 张坜;孙国强;;集装箱运输系统ETL的设计与实现[A];第七届全国信息获取与处理学术会议论文集[C];2009年
2 张丽艳;庄海军;聂军洪;;基于海量数据测量的逆向工程与快速原型集成技术研究[A];特种加工技术——2001年中国机械工程学会年会暨第九届全国特种加工学术年会论文集[C];2001年
3 陈建海;王建弟;李子川;;基于数据仓库的地籍管理信息系统框架设计[A];地理空间信息技术及其应用论坛论文集[C];2005年
4 陈建海;王建弟;李子川;;基于数据仓库的地籍管理信息系统框架设计[A];中国地理信息系统协会第九届年会论文集[C];2005年
5 韩伟红;贾焰;杨树强;;TB级海量数据实时加载技术的研究与实现[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
6 钟志勇;陈映鹰;;海量遥感数据应用方法初探[A];第十四届全国遥感技术学术交流会论文摘要集[C];2003年
7 陈卓;刘晓平;;关于BISONC程序的交互式数据处理及科学计算的可视化[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
8 李学军;;利用CASS地形图建立MapInfo数据库的探讨[A];2007'全国测绘科技信息交流会暨信息网成立30周年庆典论文集[C];2007年
9 李学军;;利用CASS地形图建立MapInfo数据库的探讨[A];中国测绘学会九届三次理事会暨2007年“信息化测绘论坛”学术年会论文集[C];2007年
10 丁辉;张大华;罗志明;;基于Hadoop的海量数据处理平台研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年
中国重要报纸全文数据库 前10条
1 安徽电力调度通信中心 袁林;征服电力调度海量数据[N];中国计算机报;2005年
2 ;MSP软件系统:海量数据的归档[N];中国计算机报;2006年
3 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
4 任续烨;海量数据我来处理[N];中国计算机报;2004年
5 汪小意;搜数网:从海量数据中搜索未来[N];第一财经日报;2006年
6 子文;ADIC StorNext/SAN存储海量数据[N];通信产业报;2003年
7 ;满足海量数据处理[N];网络世界;2004年
8 记者 冯卫东;美开发出新型纳米内存器件[N];科技日报;2007年
9 中兴通讯;云存储铺就海量数据之路[N];通信产业报;2011年
10 本报记者 周源;向海量数据开战[N];网络世界;2010年
中国博士学位论文全文数据库 前10条
1 王加阳;面向海量数据的粗糙集理论与方法研究[D];中南大学;2005年
2 杜莹;全球多分辨率虚拟地形环境关键技术的研究[D];中国人民解放军信息工程大学;2005年
3 管群;VR-GIS技术在岩土工程中的应用[D];四川大学;2002年
4 周婧;P2P分布存储系统中海量数据的数据一致性维护技术研究[D];国防科学技术大学;2007年
5 崔滨;海量数据实时三维交互式显示关键技术研究[D];上海大学;2010年
6 庄毅;海量多媒体数据库的高效查询处理[D];浙江大学;2007年
7 陶钧;海量数据P2P分布式稳固存储方法与优化研究[D];国防科学技术大学;2008年
8 王永恒;海量短语信息挖掘技术的研究与实现[D];国防科学技术大学;2006年
9 彭涛;基于特征和实例的海量数据约简方法研究[D];华中科技大学;2011年
10 刘静;协同进化算法及其应用研究[D];西安电子科技大学;2004年
中国硕士学位论文全文数据库 前10条
1 车斌;基于Hadoop海量数据处理关键技术研究[D];电子科技大学;2013年
2 吴金虎;基于Hadoop的大型网站海量数据的统计与应用[D];南京大学;2012年
3 王桂强;海量数据分析处理方法的研究[D];上海交通大学;2010年
4 杨才远;浮标基海量数据高速传输技术研究[D];哈尔滨工程大学;2010年
5 陈娜;基于Hadoop平台的海量数据处理应用[D];吉林大学;2012年
6 李宇;基于分布式数据库和数据挖掘技术的统计报表系统的分析与设计[D];吉林大学;2006年
7 黄煜;海量数据迁移和报表自动生成的研究和实现[D];上海交通大学;2010年
8 莫映;真三维地理信息系统中海量数据处理技术的应用研究[D];首都师范大学;2004年
9 曾雪;海量数据的快速查询算法研究[D];南京邮电大学;2012年
10 王璐;MIS系统中集成实时监控系统与三层C/S结构的应用[D];长春理工大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026