收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

内存数据库中集合相似度及集合包含问题的研究

贾连印  
【摘要】:集合查询和集合连接是当前研究的热点,可分为集合包含(查询或连接)和集合相似度(查询或连接)两个部分,在数据库、数据挖掘、信息检索、生物信息系统等很多相关领域有重要的研究价值和应用前景。 索引对提高集合查询和连接的效率至关重要。研究者提出了多种支持集合值的索引结构,并在此基础上设计了相应的查询或连接算法,但这些索引结构和算法存在着诸如只支持部分谓词或只在部分谓词上高效,又或支持多种谓词但效率较低等不足之处。本文主要解决在内存数据库中的集合值查询和连接问题,在相关研究的基础上,本文主要做了以下工作: 1.对相关研究工作进行了综述,对相关支持集合值查询和连接的索引和算法进行分析比较,指出其优势和不足之处。针对多数索引只关注其中集合包含和集合相似度的某一方面或某一方面的少数几种谓词的问题,从统一的架构下给出了集合查询和集合连接的定义,并在统一的结构下给出了支持所有查询谓词的实现。 2.提出一种基于trie的ETI结构,ETI对trie节点进行扩展,使之便于处理T-覆盖查询。在ETI基础上,通过将T-覆盖查询问题转化为在ETI上查找查询深度为T的节点,实现了高效的解决T-覆盖查询的T-Similarity算法。通过下面三个步骤解决扩展到其它多种相似性谓词的任务:1)将相似性阈值τ映射为T-覆盖阈值。2)在T-Similarity基础上实现T-SimilarityExact算法以计算精确覆盖值。3)验证候选记录。提出了记录序的概念并研究了不同记录序对ETI和T-Similarity算法的影响。通过扩展实验从多个方面验证了ETI结构和相关算法的有效性。 3.为在统一架构下实现集合包含查询和相似度查询问题,对ETI结构进行简单扩展,将ETI节点中的节点反向列表域分成终结于该节点的节点反向列表(ENIL)和非终结于本节点的节点反向列表(NNIL)两部分。通过后缀过滤技术和值判定技术来加速子集查询的效率。对等值查询,进一步提出空ENIL判定技术、单路径过滤技术和值不等判定技术来实现高效的等值查询。通过自根向下的遍历,实现高效的超集查询。最后,对基于ETI的集合包含查询和基于反向索引的算法进行了对比。 4.针对传统基于反向索引的集合T-覆盖连接采用生成——测试的框架,需生成大量候选集进行验证,从而导致性能降低的问题,提出一种动态的索引结构DTI,并在DTI上设计高效的T-覆盖连接算法Dtrie-allpair算法。Dtrie-allpair算法采用长度过滤,可过滤势小于T而无需索引的记录。对长度大于等于T的记录,先在DTI中查询、后索引该记录,从而可保证对一个相似对,只生成一个结果。在元素序的基础上,进一步提出记录序和组合序,研究了各种数据库序对连接效率的影响。Dtrie-allpair算法无需生成候选集直接生成最终结果,实验验证了其相对Allpair算法和PPJoin算法具有明显的优势。 5.针对基于CPU的反向索引算法在处理T-覆盖查询时效率较低,且各算法只在特定阈值范围内高效的问题,研究基于GPU的T-覆盖的高效实现。在将ScanCount算法作为底层算法的基础上,根据查询并行还是串行处理,提出两种串行算法(GS-Serial和GS-Serial-Atomic)和一种并行分组算法(GS-Parallel-Group)。为解决大量查询导致GPU空间开销较大的问题,GS-Parallel-Group对查询进行分组,从而在保持合理内存开销的同时,使系统具有近似最优的性能。通过设计的高效的GPU原语,解决了在GPU中直接获取查询结果的问题。实验验证了算法的效率和合理分组大小的设定。 6.针对基于CPU的反向索引在实现集合包含查询时需进行大量与结果无关的元素对比而导致效率低下的问题,采用GPU来实现高效的集合包含查询。对子集和等值查询,采用面向元素的、单kernel的列表交集算法,并通过设计高效的GPU原语在GPU中直接获取查询的结果,从而降低了在GPU和CPU之间传送数据的开销。对超集查询,通过对GS-Parallel-Group算法进行简单修改而实现。扩展实验表明,基于GPU的算法相对CPU的版本具有较高的加速比。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 孙玉娟,陈辉,尚前明;现代船舶机舱管理信息系统的实现[J];武汉理工大学学报(交通科学与工程版);2002年06期
2 王洪海,潘朝华;内存数据库的数据结构分析[J];现代电子技术;2004年03期
3 刘云生,迟岩;内存受限的实时内存数据库数据装入策略[J];计算机工程;2004年20期
4 何坤;;基于内存数据库的分布式数据库架构[J];程序员;2010年07期
5 曹猗宣;王晶;;内存数据库在彩铃业务中的应用[J];计算机系统应用;2011年05期
6 朱英武,卢炎生;内存数据库的快速搜索多目录哈希方法[J];微电子学与计算机;1997年01期
7 季琦;金小辉;;内存数据库交叉属性存储模型的研究[J];微计算机应用;2008年06期
8 刘云生,吴绍春,李国徽,胡国玲;一种实时内存数据库组织与管理方法[J];计算机研究与发展;1998年05期
9 卢炎生,潘怡,赵栋,谢晓东;一个内存数据库管理系统的数据组织[J];华中理工大学学报;1999年10期
10 李国徽,杨进才;内存数据库查询优化[J];华中科技大学学报(自然科学版);2003年04期
11 刘云生,许贵平;内存数据库的图论存取方法[J];计算机学报;2001年10期
12 毛焕宇;;内存数据库在电信计费系统中的应用[J];科技资讯;2006年12期
13 ;加速增值软件科技创新 提供系统管理有效捷径[J];电信快报;2009年05期
14 许浩;;SIP应用服务器内存数据库的设计[J];计算机与现代化;2010年07期
15 许丽花;翁英萍;;Oracle Timesten内存数据库自动数据清理机制探究[J];电脑知识与技术;2010年35期
16 刘云生,焦金良;内存数据库组织分区法的评析[J];计算机工程与应用;2002年10期
17 林春;分布式内存数据库的恢复[J];航空计算技术;2003年02期
18 李蔚;张效尉;李刚;;内存数据库应用于电信计费系统的研究与实现[J];郑州轻工业学院学报(自然科学版);2008年03期
19 王利娜;;变电站监控系统中内存数据库的研究[J];科技创新导报;2008年28期
20 宋述燕;王锦程;尹建新;;NGN业务平台内存数据库的设计与实现[J];计算机工程;2008年23期
中国重要会议论文全文数据库 前10条
1 梅宏斌;王德强;;内存数据库技术在期货交易系统中的应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 宋玲;杨雪君;马兰;;嵌入式内存数据库的存储和索引算法研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
3 吴清茂;姜明霞;汪卫;施伯乐;杨根兴;刘振宇;;XML中集合包含查询的处理[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 郭超;李坤;王永炎;刘胜航;王宏安;;多核处理器环境下内存数据库索引性能分析[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
5 刘云生;余利平;;内存数据库组织的Hashing方法[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
6 张延松;肖艳芹;徐凡;周国亮;王珊;陈红;;基于what-if分析的内存数据库存储策略研究[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
7 吴绍春;舒良才;李国辉;刘云生;;用内存数据库支持实时事务的定时限制[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
8 高嗣昌;李守华;李晋;;HSQLDB在电信级项目中的应用[A];促进企业信息化进程——第十届中国Java技术及应用大会文集[C];2007年
9 盛业兴;陆阳;;一种对缓存敏感的内存数据库数据组织方法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
10 张延松;张宇;黄伟;王珊;陈红;;基于内存数据库的OLAP并行查询处理技术研究[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
中国博士学位论文全文数据库 前10条
1 贾连印;内存数据库中集合相似度及集合包含问题的研究[D];华南理工大学;2012年
2 梁平;嵌入式实时数据库系统恢复技术研究[D];华中科技大学;2011年
3 杨正益;制造物联海量实时数据处理方法研究[D];重庆大学;2012年
4 冯启龙;Packing和Matching问题的参数化算法研究[D];中南大学;2010年
5 希爽;集合降维变分方法及其在全球谱模式T106中的应用研究[D];兰州大学;2009年
6 杨志;基于多项式符号代数的数字电路形式验证方法研究[D];哈尔滨工程大学;2009年
7 王斌;面向关系数据库的关键字近似搜索技术研究[D];东北大学;2008年
8 赵玲;旋转机械系统故障特征提取中的分形方法研究[D];重庆大学;2010年
9 牛儒;一种基于失效传播模型的安全分析方法的研究[D];北京交通大学;2010年
10 全玉生;高压架空输电线路故障测距新算法的研究[D];西安交通大学;1999年
中国硕士学位论文全文数据库 前10条
1 周游弋;集群监控系统中内存数据库的设计与应用研究[D];复旦大学;2010年
2 胡志强;内存数据库存储分析与设计[D];北京邮电大学;2011年
3 曹猗宣;内存数据库的研究及其应用[D];北京邮电大学;2011年
4 张胜兰;内存数据库及其对外接口[D];山东大学;2011年
5 沙先军;内存数据库的研究设计与实现[D];安徽大学;2011年
6 周岩;内存数据库在实时计费系统中应用的研究[D];北京邮电大学;2012年
7 刘启铨;在线计费系统中内存数据库的研究与应用[D];电子科技大学;2012年
8 余国锐;多核环境下内存数据库查询优化的研究[D];华中科技大学;2011年
9 梁智兴;内存数据库恢复技术研究[D];重庆大学;2010年
10 刘维;基于SMP的内存数据库查询处理优化研究[D];华中科技大学;2011年
中国重要报纸全文数据库 前10条
1 郭洪锋;分布式的统一体[N];计算机世界;2003年
2 ;河北联通炫铃解决方案[N];中国计算机报;2004年
3 ;河北联通炫铃项目[N];中国计算机报;2004年
4 李佳师;自主运算改变什么[N];中国电子报;2001年
5 ;自主运算网络[N];计算机世界;2001年
6 本报记者 克非;个人邮件“二次革命”[N];计算机世界;2003年
7 冯娟 康慨;中兴中标中国移动MMS三期工程[N];人民邮电;2004年
8 冯娟 康慨;中兴中标中国移动MMS工程[N];通信产业报;2004年
9 杨庆广;海信推出新的数字电视运营平台[N];中国电子报;2009年
10 肖建国;大型企业如何搭建私有云计算平台[N];电脑报;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978