收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

序列和文本的熵压缩结构研究

洪陈建  
【摘要】:信息化时代,数据量的激增给我们带来了机遇也带来了信息存储及检索的挑战。字符串匹配是信息检索最基本的操作,解决该问题的常用方式为索引匹配和顺序匹配。鉴于索引匹配的高效性,使用后缀数组(Suffix Array,SA)等索引结构的匹配方式逐渐代替了传统的顺序匹配。然而SA空间过大的问题,限制了其实用性。如何高效地存储SA这一索引结构,并使其支持快速查询操作,就成为了压缩索引领域重要的研究课题之一。就压缩后缀数组(Compressed Suffix Array,CSA)这一熵压缩结构而言,近年来的相关研究都以如何高效编码Ф数组为目标。本文沿袭这样的研究路线,结合Ф数组的差值序列(gap序列)针对不同文本展现出的数据特点,设计具有针对性的CSA新结构与算法,力图改善CSA面对不同类型文本输入时的压缩率及查询效率。首先,本文以GamCSA这一双层索引框架为基础,对各种类型的标准文本输入进行实验,发现不同文本具有不一样的gap序列统计特征,具体反映在其1-gap比重和1-gap-Runs的长度上,其中1-gap表示gap序列中的1值,1-gap-Runs表示gap序列中1值连续出现次数的平均值。1-gap比重越高,1-gap-Runs的长度越长,说明文本的可压缩性越好。针对这一情况,本文引入了混合编码的策略,选择合适的编码进行各类文本的编码比重实验,并以gap序列统计特征和编码比重为分类依据,提出了在高度重复文本集上表现优秀的HiCSA,以及在普通文本集上能起到性能改善作用的NorCSA两种熵压缩新结构。HiCSA结构中应用了根据实际问题进行改进的Run-length编码,能很好地处理1-gap-Runs较长的文本,对于长为n的文本T,HiCSA的空间上界为nH_k+2n log(H_k+1)+n+o(n)位,其中H_k表示文本T的k阶经验熵。NorCSA结构中应用了BV+γ的编码方式,提高了使用单一γ编码时索引的性能,并保持了2nH_k+n+o(n)位的空间上界;之后,本文围绕HiCSA和NorCSA两种新结构,设计了高效的访问及查询算法,以快速解决count,locate和extract问题。在设计查询算法时,本文对lookup-table结构做出了改进,以适应在RL-δ新编码方式下的快速解码操作;并且提出了词汇加速表这一新结构,预先存储好词汇的后缀区间,用以改善后向搜索算法的性能;最后,本文还关注了文本词频对查询操作的影响,针对采样位置判断点的分布情况,使用SA位置采样方式,提出了一种新的变长采样策略,并设计了对应的结构和算法以加快locate问题的解决。实验表明,本文提出的HiCSA和NorCSA熵压缩新结构具有较好的压缩率及查询时间,尤其在locate时间上与其他主流索引相比具有一定的优势;并且我们提出的变长采样策略也得到了有效性的验证,与定长采样相比,它能在locate时间上获得8%~70%左右性能的提升。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 余俊;;一种混合编码方式的彩色立体电视[J];电视技术;1987年04期
2 赖志柱;;基于混合编码遗传算法的证券组合投资问题的求解[J];毕节学院学报;2009年08期
3 田方,谢里阳,王洁,陶柯;混合编码遗传算法及其在机械设计中的应用[J];组合机床与自动化加工技术;2005年01期
4 章晟;张启飞;潘雪增;朱旭辉;;搜索引擎中基于密度聚类的混合编码检测算法[J];数据采集与处理;2011年01期
5 袁晓;利洁婷;王世其;;混合编码的遗传算法在生产计划中的应用[J];牡丹江师范学院学报(自然科学版);2011年04期
6 杨力平,杨小芹,刘云生;进化计算的二进制与浮点数自适应混合编码方法[J];计算机工程;2002年11期
7 郑世杰;郭腾飞;董会丽;宋振;;基于混合编码遗传算法和有限元分析的压电结构载荷识别[J];计算力学学报;2009年03期
8 程敏,俞珑;一种4kbit/s语音混合编码[J];江苏通信技术;2002年05期
9 肖刘;;一种基于混合编码的多维信息单信道下传系统[J];航空电子技术;2018年03期
10 龚固丰;章兢;何敏;王炼红;;混合编码免疫算法在非线性系统辨识中的应用[J];系统仿真学报;2009年12期
11 涂承杰,郭立;图象的无失真/有失真混合编码[J];中国科学技术大学学报;1998年02期
12 赵菡;张琤;林家骏;;基于混合编码遗传算法的最优跟踪门[J];华东理工大学学报(自然科学版);2017年06期
13 李喜艳;张文宁;周清雷;;混合编码遗传算法在测试数据生成中的应用[J];郑州大学学报(理学版);2009年03期
14 牛向阳;高成修;;基于混合编码的混合遗传算法[J];数学杂志;2008年04期
15 余胜生;张剑;周敬利;;基于H.264标准的混合编码算法分析[J];计算机科学;2005年05期
16 张文军,余松煜;基于视觉特性的自适应混合编码[J];上海交通大学学报;1991年03期
17 信昆仑,刘遂庆;混合编码遗传算法基于面向对象方法的实现及应用[J];计算机工程与应用;2003年21期
18 欧进萍,张利芬;模糊神经网络控制系统优化的实整数混合编码遗传算法[J];地震工程与工程振动;2003年01期
19 李喜艳;周清雷;张文宁;;多峰值全局优化的混合编码遗传算法[J];微电子学与计算机;2010年03期
20 张伟栋;叶贞成;钱锋;;基于混合编码的遗传算法在神经网络优化中的应用[J];华东理工大学学报(自然科学版);2008年01期
中国重要会议论文全文数据库 前3条
1 郑军;徐勇;;基于小波变换的格型矢量量化混合编码方法[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
2 杨鹏;孔鑫;赵奇;陈贺;;基于混合编码遗传算法的双足机器人步态规划[A];2006中国控制与决策学术年会论文集[C];2006年
3 陈超;;利用混合编码遗传算法求解位场反演问题[A];2001年中国地球物理学会年刊——中国地球物理学会第十七届年会论文集[C];2001年
中国博士学位论文全文数据库 前2条
1 唐文艳;结构优化中的遗传算法研究和应用[D];大连理工大学;2002年
2 龚固丰;人工免疫系统在非线性系统辨识与预测控制中的应用研究[D];湖南大学;2009年
中国硕士学位论文全文数据库 前10条
1 洪陈建;序列和文本的熵压缩结构研究[D];西安电子科技大学;2018年
2 王彬彬;基于精细可分级的音视频混合编码[D];吉林大学;2007年
3 姜珊珊;基于混合编码结构光的三维测量技术研究[D];中国海洋大学;2011年
4 刘建蓉;一种改进的基于混合编码的防篡改软件水印技术[D];湖南大学;2011年
5 赵利富;基于混合编码改进遗传算法的无功优化研究[D];山东大学;2013年
6 杜剑行;基于混合编码改进遗传算法的电力系统动态无功优化研究[D];华北电力大学;2013年
7 赵红;基于免疫遗传算法的模糊神经网络研究[D];哈尔滨工程大学;2008年
8 胡吟;含分布式发电的配电网随机规划[D];上海电力学院;2012年
9 王伟;基于动态图的软件水印技术的研究[D];国际关系学院;2013年
10 方弢;混合神经网络应用于图象处理的研究[D];浙江大学;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978