收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向灾备的无损数据压缩关键技术研究

常为领  
【摘要】:数据压缩是指在一定的数据存储空间要求下,将相对庞大的原始数据,重组为满足前述空间要求的数据集合,使得从该数据集合中恢复出来的信息能够与原始数据相一致,或者能够获得与原始数据一样的使用品质。数据压缩减少了数据存储所需要的空间,从而间接减少了处理数据所需要的时间及资源耗费。灾备系统特殊的应用环境和特定的技术要求对数据压缩技术提出了新的要求,这些要求包括在以中文信息为主的应用环境下压缩性能的度量和压缩性能的提高优化问题,由基于分块的增量备份技术所衍生的压缩技术在分块模式下的性能优化问题,对灾备数据联合使用压缩技术和加密技术所引发的计算性能瓶颈问题,以及扩展压缩技术的应用范围等等。 在以中文信息为主的应用环境下压缩性能的度量方面,由于数据压缩技术的发展一直以欧美发达国家为主导,压缩性能测试主要使用Calgary Corpus和Canterbury Corpus等测试集,这些测试集的各类测试文件都是ASCII编码方式的,而在中文应用环境中,ANSI编码的数据占有主导地位,因此需要对压缩测试集进行扩充,增加中文编码的测试样本。论文构造了一个基于ANSI编码的中文无损压缩算法性能评估测试集HITICT,其按照应用代表性、补充性、公开性的原则从互联网上获取候选样本,采用平均压缩率、标准差、平均相关系数、压缩率相关系数等技术指标对样本进行筛选,并剔除影响压缩率的非文本因素,最后确定了10个最优样本组成HITICT Corpus。实验结果表明,该测试集具有良好的代表性及稳定性,弥补了中文压缩测试集的空白,可以做为当前主流ASCII编码测试集的补充。 针对中文数据的压缩性能优化问题,论文提出了一个中文文本压缩性能优化算法CRecode。算法根据中文文本中字词的概率分布特点,对中文字词根据其使用频率,采用8 bits、16 bits和24 bits三种长度的编码重新编码,克服了Huffman编码在压缩中文数据时打乱数据中蕴含的语义信息,致使其压缩数据再压缩性差的缺点。CRecode最大的贡献在于它与通用压缩工具的兼容性,测试中,CRecode在与现有主流压缩软件联合使用时,可提高压缩率4%到30%。 在分块压缩技术的研究方面,论文首次深入研究了LZSS算法在分块模式下的压缩性能以及影响LZSS性能最重要的两个参数IA字段位长及Len字段位长对分块LZSS压缩性能的影响,以此确定与灾备系统相匹配的最佳分块大小。研究表明,LZSS压缩率与分块大小相关,分块越大,压缩率越高,不分块LZSS的压缩率最高。IA字段位长对分块LZSS的压缩性能影响较大,最佳分块随着IA字段位长的增大而增大,而Len字段位长对分块LZSS压缩率的影响很小。时间性能方向,造成分块LZSS时间性能降低的原因主要在于小分块引起的IO负担,与LZSS算法本身无关。 在压缩数据的随机性测试方面,论文使用NIST和Diehard两个随机性测试集测试了各种压缩算法生成的压缩数据的随机性,提出了一个随机性度量指标SRV,通过计算SRV值对压缩数据的随机性能进行比较,并分析了压缩率与随机性之间的关系。测试表明,数据压缩率与随机性是有一定的正相关关系,但随机性好未必意味着生成该数据的压缩算法的压缩率高,压缩数据的随机性更与编码方式相关,算术编码表现出更好的随机化性能。高度压缩的数据仍具有一定的非随机性。压缩数据随机性的优劣与压缩算法的随机化性能息息相关,根据LZSS算法IA字段所具有的随机性特征,论文设计了一个基于LZSS的PRNG,实验表明,基于LZSS的PRNG可获得与RC4加密算法相近的随机性能,该算法生成的随机数具有单向性、不可逆推的特点,有很强的安全性。 除了静态Huffman编码以外,现有的主流压缩算法都是上下文相关的,即在压缩过程的任一时刻,其压缩数据的输出取决于上下文中的相关统计或字典信息。当前主流的压缩工具都集合了若干个基本压缩算法,其结果更加剧了压缩数据间的相互依赖性。根据压缩数据的这个特征,论文研究了各种压缩算法及压缩工具压缩数据的局部或部分加密方法,给出了各种基本压缩算法的最小加密数据量。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王昱洁,刘同怀,郭立,刘烃海;一种应用于MPEG-2 AAC的快速Huffman解码算法[J];微型机与应用;2005年02期
2 王彤,晁爱农,张红梅;一种动态Huffman优化算法的设计与应用[J];空军工程大学学报(自然科学版);2005年02期
3 魏忠义,朱磊;基于DSP的JPEG图像解码算法的实现[J];现代电子技术;2005年02期
4 邱林海,余胜生,周敬利;快速Huffman解码算法及其实现[J];计算机工程与应用;1999年04期
5 马沂,赵东风;Huffman码在码元时间单位不同时的最优性研究[J];云南民族大学学报(自然科学版);2004年04期
6 刘若珩,窦维蓓,董在望;MPEG/Audio层Ⅲ实时解码优化设计[J];电声技术;1999年10期
7 张文质;郝鹏翼;;Huffman编码和解码的C语言实现[J];洛阳大学学报;2005年04期
8 黄福莹;黄开志;;基于矢量量化和Huffman编码的图像压缩方法[J];广西科学院学报;2009年04期
9 成方林;Huffman数据压缩技术在卫星数据通信中的应用[J];海洋技术;2005年03期
10 杜会斌;吴晓娟;周旭;张学庆;;SPIHT静止图像压缩技术研究[J];无线电工程;2006年02期
11 王学伟;张蕊;;电力线载波DS扩频通信及数据压缩[J];中国住宅设施;2008年08期
12 朱小川;;数字信息压缩编码常见算法[J];中国科技信息;2006年06期
13 王敏;刘洋;;Huffman编码的另类算法[J];赣南师范学院学报;2006年06期
14 郑天翼;黄世震;韦明;;PNG硬件解码的加速设计[J];电子设计应用;2009年03期
15 郑天翼;黄世震;韦明;;PNG的硬件解码加速设计[J];现代电子技术;2009年04期
16 张凤林;刘思峰;;Huffman~*:一个改进的Huffman数据压缩算法[J];计算机工程与应用;2007年02期
17 郭彦华;林涛;;高效存储的Huffman硬件解码器的设计和应用[J];有线电视技术;2007年07期
18 王晓;杨维剑;;单片机中实现数字图像压缩的算法研究[J];四川理工学院学报(自然科学版);2010年01期
19 常为领;方滨兴;云晓春;王树鹏;余翔湛;;一种支持ANSI编码的中文文本压缩算法[J];中文信息学报;2010年05期
20 孔凡龙;程思远;关迅;;浅谈无损压缩算法[J];电脑知识与技术;2011年22期
中国重要会议论文全文数据库 前3条
1 黄福莹;黄开志;;基于矢量量化和Huffman编码的图像压缩[A];广西计算机学会2009年年会论文集[C];2009年
2 陈步康;;最小方差huffman编码[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
3 潘剑君;;利用遥感图象细分土壤图图斑(摘要)[A];中国地壤学会第十次全国会员代表大会暨第五届海峡两岸土壤肥料学术交流研讨会文集(面向农业与环境的土壤科学专题篇)[C];2004年
中国博士学位论文全文数据库 前1条
1 常为领;面向灾备的无损数据压缩关键技术研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 邹宝升;基于Huffman编码的SoC测试数据压缩方法研究[D];合肥工业大学;2010年
2 孟凡勇;Huffman编码在环保实时监测系统中的研究与应用[D];中国海洋大学;2010年
3 尹伟;基于FPGA的JPEG编解码芯片设计[D];大连理工大学;2004年
4 周益民;图像处理并行算法的研究[D];电子科技大学;2006年
5 陈俊;MP3解码算法及优化实现[D];贵州大学;2007年
6 周礼华;音频数字水印算法研究[D];江南大学;2008年
7 胡荣;多核构架下基于OpenMP的Huffman压缩算法并行程序设计研究[D];湖南大学;2012年
8 徐长远;基于FPGA的静止图像压缩系统的研究—JPEG编码器的设计[D];西华大学;2007年
9 方婵婵;基于IP软核的IC设计[D];合肥工业大学;2007年
10 何亚军;JPEG解码IP的研究与实现[D];合肥工业大学;2007年
中国重要报纸全文数据库 前6条
1 张志刚;压缩广域网流量[N];中国计算机报;2003年
2 Gregg Kilday.编译场一晨;韦恩斯坦10月全面启动新业务[N];中国电影报;2005年
3 王萍霞;为你的图片批量[减肥][N];中国电脑教育报;2004年
4 王萍霞;给图片批量“减肥”[N];中国计算机报;2004年
5 重庆 钟靖;图片要“瘦身”,还要清晰[N];电脑报;2003年
6 吴志润;寻找C50富勒烯的博士[N];闽南日报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978