收藏本站
《清华大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于P2P可伸缩架构的大数据分析平台研究与实现

卓安  
【摘要】:随着互联网应用的飞速发展和信息的社会化,数据呈爆发式的增长,传统的关系数据库在处理分析如此海量的数据时出现性能和可扩展性的瓶颈,所以必须研究新的有效的大数据分析平台。大数据技术目前还没成熟,也没形成统一标准,但工业界已经广泛使用Hadoop作为其大数据处理平台,这也带动了国内学术界对Hadoop相关技术研究。除了Hadoop外,NoSQL相关技术也得到较快发展,涌现了一批优秀的开源项目,如HBase和Cassandra等都被工业界广泛应用。 本文基于国家核高基科技重大专项——非结构化数据管理系统LaUDMS来研究和实现对大数据的处理分析相关技术。非结构化数据管理系统LaUDMS重点就是深入研究大数据的存储和分析技术,并结合理论和实践来解决对大规模非结构化数据的管理难题。 本文首先对大数据处理分析平台的研究现状进行了综述;其次在综合比较分析现有平台优缺点的基础上介绍了非结构化数据管理系统LaUDMS的内核清华知云Kloud的平台架构;再次是清华知云Kloud中的大数据分析平台的技术研究和实现。技术研究包括深入分析了分布式数据仓库Hive的设计和组件,并将其融合到基于P2P架构的Cassandra内部实现中;为实现Hive组件完全融合到Cassandra中,定义了基于Cassandra自由表的面向对象数据模型来存取Hive的元数据信息;为提高自由表访问效率,描述了基于Cassandra自由表的辅助索引设计和实现,并且将其融合到Hive的分布式索引插件框架中,实现Hive分析的性能优化。该大数据分析平台实现后对某网站用户访问日志进行了实验分析,性能和可用性得到相应的提升,取得良好效果。
【学位授予单位】:清华大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP311.52;TP393.02

【参考文献】
中国期刊全文数据库 前3条
1 王珊;王会举;覃雄派;周烜;;架构大数据:挑战、现状与展望[J];计算机学报;2011年10期
2 陈康;郑纬民;;云计算:系统实例与研究现状[J];软件学报;2009年05期
3 覃雄派;王会举;杜小勇;王珊;;大数据分析——RDBMS与MapReduce的竞争与共生[J];软件学报;2012年01期
【共引文献】
中国期刊全文数据库 前10条
1 魏东泽;来学嘉;;一种安全的高可靠性P2P云存储备份模型初探参考文献[J];信息安全与技术;2011年09期
2 王继鹏;;高等教育云计算服务平台构建策略初探[J];安阳师范学院学报;2011年05期
3 刘真;刘峰;张宝鹏;马飞;高石玉;;云计算模型在铁路大规模数据处理中的应用[J];北京交通大学学报;2010年05期
4 徐小龙;程春玲;熊婧夷;王汝传;;一种基于移动Agent的云端计算任务安全分割与分配算法[J];北京理工大学学报;2011年08期
5 李建卓;;云计算及其发展综述[J];宝鸡文理学院学报(自然科学版);2010年03期
6 董晓霞;吕廷杰;;云计算研究综述及未来发展[J];北京邮电大学学报(社会科学版);2010年05期
7 邓仲华;朱秀芹;;云计算环境下的隐私权保护初探[J];图书与情报;2010年04期
8 马晓亭;陈臣;;基于成本收益分析的云计算环境下数字图书馆建设研究[J];图书与情报;2011年06期
9 朱德新;宋雅娟;;海量数据分析及处理算法实现[J];长春大学学报;2011年08期
10 黄小龙;;浅谈云计算技术在教育领域的应用[J];成功(教育);2011年08期
中国重要会议论文全文数据库 前10条
1 万丹丹;王宏;;云计算在编辑工作中的应用探讨[A];学术期刊编辑学理论与实践[C];2010年
2 郭捷夫;;基于云计算模型的绿色IT数据中心构建方案研究[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
3 汪云凤;李心科;;云服务环境下的服务聚合方法研究[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
4 张白兰;杨向红;李家龙;刘伟;林创燕;邱正能;;物联网综述[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
5 蔡津津;郜新鑫;付建俐;;基于业务元数据标准化的金融财经数据仓库及服务系统架构探讨[A];中国新闻技术工作者联合会2012年学术年会、五届四次理事会暨第六届“王选新闻科学技术奖”的“人才奖”和“优秀论文奖”颁奖大会论文集[C];2012年
6 任伟;叶敏;刘宇靓;;云安全的信任管理研究[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
7 周轩;黄璞;;基于云计算的OMS平台移动业务测试系统[A];中国通信学会第六届学术年会论文集(上)[C];2009年
8 唐玲;;云计算及其安全问题的研究[A];Proceedings of 2011 National Teaching Seminar on Cryptography and Information Security(NTS-CIS 2011) Vol.1[C];2011年
9 丁辉;赵炜妹;;基于云计算应用一级部署的研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年
10 赵伟;陈承收;李立军;;基于MapReduce云计算模型的碰撞检测算法[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 吴吉义;基于DHT的开放对等云存储服务系统研究[D];浙江大学;2011年
2 徐昶;基于闪存的数据库存储引擎技术研究[D];浙江大学;2011年
3 王铁军;非结构化对等网络资源定位技术研究[D];电子科技大学;2010年
4 江颉;面向电子服务的访问控制关键技术研究[D];浙江大学;2010年
5 张泽华;云计算联盟建模及实现的关键技术研究[D];云南大学;2010年
6 李铮;多媒体云计算平台关键技术研究[D];中国科学技术大学;2011年
7 康俊锋;云计算环境下高分辨率遥感影像存储与高效管理技术研究[D];浙江大学;2011年
8 林云;汽车物流服务供应链体系构建与应用研究[D];重庆大学;2011年
9 朱智强;混合云服务安全若干理论与关键技术研究[D];武汉大学;2011年
10 方雷;基于云计算的土地资源服务高效处理平台关键技术探索与研究[D];浙江大学;2011年
中国硕士学位论文全文数据库 前10条
1 孔楠;基于云计算平台的商业服务模式研究[D];上海外国语大学;2010年
2 康兴元;面向模具企业的注塑模设计知识网络化管理系统研究[D];大连理工大学;2010年
3 姜健;云计算在企业物资供应系统的应用研究[D];辽宁工程技术大学;2009年
4 薛师;云计算与网格计算的比较研究[D];河南理工大学;2010年
5 刘震宇;基于VMware vSphere4.0的PC服务器资源池构建[D];大连海事大学;2010年
6 梁文迪;一体化资产管理系统中财务模块的设计与实现[D];华南理工大学;2010年
7 胡清;基于云计算的券商网络营销服务平台研究与设计[D];南昌大学;2010年
8 马伟;基于FD-tree的闪存数据库索引技术研究[D];浙江大学;2011年
9 李婵;基于云计算的智能手机数据挖掘平台的架构和实现[D];武汉理工大学;2010年
10 贺鹏;云计算的开发云的研究与实现[D];电子科技大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 秦海峰;许南山;山岚;;基于P2P架构的搜索引擎技术探究[J];福建电脑;2008年07期
2 熊芳;李莹峰;;DHT原理及功能探讨[J];长沙大学学报;2008年02期
3 周丁丁;董仕;;DRM版权保护在P2P流媒体的应用研究[J];科技创新导报;2008年19期
4 林鹏;黄芳;张晓薇;;下一代网络演进趋势——基于P2P的重叠网架构[J];电信工程技术与标准化;2009年07期
5 杜敏;;基于P2P的贝叶斯网络检测模型研究[J];宜春学院学报;2010年12期
6 申德荣;姜安琦;王广奇;杨柄恒;于戈;;EFCS-Grid内基于P2P的分布聚类分析处理策略的研究[J];小型微型计算机系统;2007年08期
7 刘晓梅;邓芳;;基于P2P技术的网上答疑系统[J];烟台职业学院学报;2008年01期
8 王振岭;林丽;;基于P2P流媒体技术的远程教学平台的构建[J];软件导刊;2008年02期
9 李波;丁方平;;关于远程实时温度采集系统的架构的研究[J];青岛远洋船员学院学报;2009年02期
10 乔治;;CDN与P2P结合的技术在流媒体分发和交付系统中的应用[J];邮电设计技术;2008年02期
中国重要会议论文全文数据库 前10条
1 蒋晶晶;叶剑;朱珍民;刘韩;;面向移动应用的分布式P2P情境数据检索平台的研究[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
2 袁野;王国仁;张莹;;P2P环境下度量空间中的相似查询处理[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 李钧;王新;;P2P存储网络中的冗余维持[A];第15届全国信息存储技术学术会议论文集[C];2008年
4 徐陈锋;奚宏生;江琦;殷保群;;一类分层非结构化P2P系统的随机优化[A];第二十六届中国控制会议论文集[C];2007年
5 唐晨;孙立峰;杨士强;;基于减小切换延迟的P2P流媒体服务器带宽分配研究[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
6 林佳烨;;云计算在电信行业数据分析领域的应用[A];广东通信2010青年论坛优秀论文集[C];2010年
7 张建标;张涛;;一种基于流量行为的P2P协议识别方法[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
8 张娜娜;;P2P流量识别方法研究[A];江苏省电子学会2010年学术年会论文集[C];2010年
9 杨艳春;孟祥武;;P2P网络服务环境中的节点相似性度量研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
10 蔡文渊;夏添;徐林昊;钱卫宁;周水庚;周傲英;;P2P环境下的视图选择[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国重要报纸全文数据库 前10条
1 本报记者 周源;共享IT架构选购之道[N];网络世界;2010年
2 本报记者 邹大斌;QNX:微内核架构奠定安全基础[N];计算机世界;2011年
3 《网络世界》记者 于翔;混合交付:云只是途径之一[N];网络世界;2011年
4 本报记者 赵谨娜;IBM X架构:技术为本 用户为先[N];中国计算机报;2001年
5 记者 于新春;业内人士呼吁建立新型市场架构[N];国际商报;2001年
6 刘杰;思杰陶欣:绿色IT架构要“瞻前顾后”[N];中国企业报;2010年
7 拉毛东治 李婷;青海公司SG—ERP架构管控项目开建[N];国家电网报;2011年
8 记者 韩晓民;深圳架构城区统一信息平台[N];人民邮电;2001年
9 赵海军;X-架构抢先机[N];中国计算机报;2002年
10 马克·马多克期 剑桥大学社全球首席信息官;传统出版社迫切需要构建技术企业架构[N];中国图书商报;2010年
中国博士学位论文全文数据库 前10条
1 王嵩;P2P媒体服务系统研究[D];中国科学技术大学;2010年
2 刘佳琦;移动P2P覆盖网拓扑结构及节点合作保障机制研究[D];中南大学;2012年
3 杨磊;针对P2P节点不合作行为的信任与激励机制研究[D];电子科技大学;2012年
4 杨鹏;居民电子健康档案文档架构与数据元组的研究与实践[D];第四军医大学;2012年
5 高见;基于P2P的僵尸网络及关键技术研究[D];北京邮电大学;2011年
6 陈一帅;P2P流媒体系统能力研究[D];北京交通大学;2010年
7 王广奇;基于P2P框架的数据库网格中若干关键技术的研究[D];东北大学;2008年
8 郑伟平;可控P2P流媒体分发关键技术研究[D];华南理工大学;2010年
9 任祖杰;非合作性环境下的P2P搜索技术研究[D];浙江大学;2010年
10 郭良敏;P2P文件共享系统中的副本技术研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 卓安;基于P2P可伸缩架构的大数据分析平台研究与实现[D];清华大学;2012年
2 杨乐;基于P2P架构的流媒体直播系统的研究与应用[D];江西师范大学;2010年
3 余林路;基于蚁群算法的P2P文件共享系统的研究[D];华南理工大学;2010年
4 戴必翔;基于P2P和WSMO的语义Web服务发现的研究[D];合肥工业大学;2010年
5 张静颐;基于NAT穿透的P2P即时通信系统的设计与实现[D];西安电子科技大学;2008年
6 杨国英;基于B/S模式的高校仪器设备管理信息系统的设计与实现[D];北京化工大学;2005年
7 张爱红;基于Web服务的共建共享型数字图书馆研究[D];四川大学;2005年
8 阙宇峻;面向系统芯片的软硬件协同设计平台VXP(Virtual Executable Platform)的设计[D];华东师范大学;2006年
9 李明;J2EE核心模式及其在低压配电信息系统中的应用研究[D];华中科技大学;2005年
10 张涛;软件开发过程的工作流管理系统[D];天津大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026