序列和文本的熵压缩结构研究
【摘要】:信息化时代,数据量的激增给我们带来了机遇也带来了信息存储及检索的挑战。字符串匹配是信息检索最基本的操作,解决该问题的常用方式为索引匹配和顺序匹配。鉴于索引匹配的高效性,使用后缀数组(Suffix Array,SA)等索引结构的匹配方式逐渐代替了传统的顺序匹配。然而SA空间过大的问题,限制了其实用性。如何高效地存储SA这一索引结构,并使其支持快速查询操作,就成为了压缩索引领域重要的研究课题之一。就压缩后缀数组(Compressed Suffix Array,CSA)这一熵压缩结构而言,近年来的相关研究都以如何高效编码Ф数组为目标。本文沿袭这样的研究路线,结合Ф数组的差值序列(gap序列)针对不同文本展现出的数据特点,设计具有针对性的CSA新结构与算法,力图改善CSA面对不同类型文本输入时的压缩率及查询效率。首先,本文以GamCSA这一双层索引框架为基础,对各种类型的标准文本输入进行实验,发现不同文本具有不一样的gap序列统计特征,具体反映在其1-gap比重和1-gap-Runs的长度上,其中1-gap表示gap序列中的1值,1-gap-Runs表示gap序列中1值连续出现次数的平均值。1-gap比重越高,1-gap-Runs的长度越长,说明文本的可压缩性越好。针对这一情况,本文引入了混合编码的策略,选择合适的编码进行各类文本的编码比重实验,并以gap序列统计特征和编码比重为分类依据,提出了在高度重复文本集上表现优秀的HiCSA,以及在普通文本集上能起到性能改善作用的NorCSA两种熵压缩新结构。HiCSA结构中应用了根据实际问题进行改进的Run-length编码,能很好地处理1-gap-Runs较长的文本,对于长为n的文本T,HiCSA的空间上界为nH_k+2n log(H_k+1)+n+o(n)位,其中H_k表示文本T的k阶经验熵。NorCSA结构中应用了BV+γ的编码方式,提高了使用单一γ编码时索引的性能,并保持了2nH_k+n+o(n)位的空间上界;之后,本文围绕HiCSA和NorCSA两种新结构,设计了高效的访问及查询算法,以快速解决count,locate和extract问题。在设计查询算法时,本文对lookup-table结构做出了改进,以适应在RL-δ新编码方式下的快速解码操作;并且提出了词汇加速表这一新结构,预先存储好词汇的后缀区间,用以改善后向搜索算法的性能;最后,本文还关注了文本词频对查询操作的影响,针对采样位置判断点的分布情况,使用SA位置采样方式,提出了一种新的变长采样策略,并设计了对应的结构和算法以加快locate问题的解决。实验表明,本文提出的HiCSA和NorCSA熵压缩新结构具有较好的压缩率及查询时间,尤其在locate时间上与其他主流索引相比具有一定的优势;并且我们提出的变长采样策略也得到了有效性的验证,与定长采样相比,它能在locate时间上获得8%~70%左右性能的提升。
|
|
|
|
1 |
余俊;;一种混合编码方式的彩色立体电视[J];电视技术;1987年04期 |
2 |
赖志柱;;基于混合编码遗传算法的证券组合投资问题的求解[J];毕节学院学报;2009年08期 |
3 |
田方,谢里阳,王洁,陶柯;混合编码遗传算法及其在机械设计中的应用[J];组合机床与自动化加工技术;2005年01期 |
4 |
章晟;张启飞;潘雪增;朱旭辉;;搜索引擎中基于密度聚类的混合编码检测算法[J];数据采集与处理;2011年01期 |
5 |
袁晓;利洁婷;王世其;;混合编码的遗传算法在生产计划中的应用[J];牡丹江师范学院学报(自然科学版);2011年04期 |
6 |
杨力平,杨小芹,刘云生;进化计算的二进制与浮点数自适应混合编码方法[J];计算机工程;2002年11期 |
7 |
郑世杰;郭腾飞;董会丽;宋振;;基于混合编码遗传算法和有限元分析的压电结构载荷识别[J];计算力学学报;2009年03期 |
8 |
程敏,俞珑;一种4kbit/s语音混合编码[J];江苏通信技术;2002年05期 |
9 |
肖刘;;一种基于混合编码的多维信息单信道下传系统[J];航空电子技术;2018年03期 |
10 |
龚固丰;章兢;何敏;王炼红;;混合编码免疫算法在非线性系统辨识中的应用[J];系统仿真学报;2009年12期 |
11 |
涂承杰,郭立;图象的无失真/有失真混合编码[J];中国科学技术大学学报;1998年02期 |
12 |
赵菡;张琤;林家骏;;基于混合编码遗传算法的最优跟踪门[J];华东理工大学学报(自然科学版);2017年06期 |
13 |
李喜艳;张文宁;周清雷;;混合编码遗传算法在测试数据生成中的应用[J];郑州大学学报(理学版);2009年03期 |
14 |
牛向阳;高成修;;基于混合编码的混合遗传算法[J];数学杂志;2008年04期 |
15 |
余胜生;张剑;周敬利;;基于H.264标准的混合编码算法分析[J];计算机科学;2005年05期 |
16 |
张文军,余松煜;基于视觉特性的自适应混合编码[J];上海交通大学学报;1991年03期 |
17 |
信昆仑,刘遂庆;混合编码遗传算法基于面向对象方法的实现及应用[J];计算机工程与应用;2003年21期 |
18 |
欧进萍,张利芬;模糊神经网络控制系统优化的实整数混合编码遗传算法[J];地震工程与工程振动;2003年01期 |
19 |
李喜艳;周清雷;张文宁;;多峰值全局优化的混合编码遗传算法[J];微电子学与计算机;2010年03期 |
20 |
张伟栋;叶贞成;钱锋;;基于混合编码的遗传算法在神经网络优化中的应用[J];华东理工大学学报(自然科学版);2008年01期 |
|