收藏本站
《武汉邮电科学研究院》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于布隆过滤器的海量数据查询技术的优化与应用

饶文  
【摘要】:随着信息技术、数据库和数据仓库技术等的飞速发展,每时每刻都会有海量的数据产生,对于这些数据的采集、清洗、存储、查询等一系列问题得到了越来越多学者和公司的重视,由此一些数据处理系统,如海量数据查询系统也就产生出来。在这个系统中,查找就是确定一个具有特定值的元素是不是一个特定集合的成员。分布式环境下,随着数据量的增加,为保证系统性能,元素的表示、查找方法常常需要从空间存储、查找效率及准确性等方面来进行考虑。本文基于一个用户行为数据分析的案例,搭建海量用户行为数据查询系统来进行分析与说明。首先对海量数据查询系统进行了需求分析,为获得清晰的数据血缘关系、减少重复开发,从理论上对系统数据仓库进行了分层,对每一层的特点及功能进行了分析,针对每一层的数据流向,设计并实现了原始数据接入模块、原始数据提取模块、付费用户筛选模块等。在整个系统之中,对输入的原始数据进行了采集清洗存储后,在筛选与付费用户筛选模块中,需要在海量数据中判断某账号是否属于付费用户的数据集,布隆过滤器算法提供了一种快速、有效的实现方法。首先简述了直接使用Hive来级联查询的方案,其操作简洁,但解析HiveQL,调用MapReduce程序的过程耗时较长,然后提出使用MongoDB内存数据库存储付费用户的解决方案,其搜索效率很高;如果使用分布式缓存的方法,把付费用户通过合适的数据结构读入内存,这时需要一对一存取,将不同的数据结构HashSet与布隆过滤器算法的时间复杂度、空间复杂度进行了对比,通过分析及实验知,布隆过滤器占用少量的存储开销、查找时间复杂度为常数,解决本类问题极为合适,针对其可能产生的错误数据(“假阳性”)提出消除方案,并进行了实验验证。
【学位授予单位】:武汉邮电科学研究院
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 钱曙光;徐佩;蒲萌;;基于布隆过滤器算法的垃圾邮件地址判别方案[J];信息通信;2014年03期
2 王键;;d-Left CBF技术在P2P中的研究[J];计算机工程与设计;2008年07期
3 包杰;王伶俐;;基于函数分类和布隆过滤器的布尔匹配方法[J];计算机工程;2014年06期
4 黄恩博;;基于布隆过滤器的网页搜索去重方法[J];现代计算机;2013年21期
5 笱程成;赵荣彩;单征;田双鹏;;基于计数布隆过滤器的负载均衡算法[J];计算机工程;2010年17期
6 刘威;郭渊博;黄鹏;;基于多维布隆过滤器的模式匹配引擎[J];计算机应用;2011年01期
7 时磊;杨骅;王红梅;张铁军;王东辉;;基于布隆过滤器的事务存储架构中的高速缓存[J];微电子学与计算机;2011年03期
8 张丽果;;基于布隆过滤器的字符串模糊匹配算法的FPGA实现[J];电子设计工程;2013年09期
9 王茜;刘泓;杨传栋;;面向外包关联规则挖掘的隐私保护算法研究[J];计算机工程;2013年02期
10 黄宸;陈周国;郝尧;蒲石;;基于GBF的追踪溯源系统设计[J];通信技术;2014年04期
中国博士学位论文全文数据库 前1条
1 魏建生;高性能重复数据检测与删除技术研究[D];华中科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 梁琦;基于ICN技术的信息传输方案的研究与实现[D];电子科技大学;2014年
2 祁兰;基于MongoDB的数据存储与查询优化技术研究[D];南京邮电大学;2016年
3 程俊;基于布隆过滤器的分簇式复制节点检测协议[D];江西师范大学;2016年
4 管俊涵;云存储中可搜索加密研究[D];重庆大学;2016年
5 张笑天;分布式爬虫应用中布隆过滤器的研究[D];沈阳工业大学;2017年
6 钟远坤;支持多集合成员查询的噪声布隆过滤器[D];南京大学;2017年
7 李姿;一种基于偏移量的布隆过滤器算法[D];南京大学;2017年
8 王伟晨;基于Hadoop的海量图片检索平台的构建与研究[D];内蒙古农业大学;2017年
9 饶文;基于布隆过滤器的海量数据查询技术的优化与应用[D];武汉邮电科学研究院;2018年
10 黄涛;布隆过滤器在网页去重中的研究与应用[D];大连海事大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026