中文XML压缩技术研究
【摘要】:随着可扩展标记语言(Extensible Markup Language,简称XML)的广泛应用,互联网以及本地计算机上存在着大量的中文XML文档需要存储和交换。XML是一种元语言,可以用来描述其它数据,并且XML具有简单、灵活、跨平台等特性。但是XML格式冗余巨大,空间利用率低。为了提高空间利用率,提高数据交换的速度,给出了一种高压缩率中文XML文档的专用压缩解决方案COX(Chinese-Oriented XML Compressor)并实现了该系统。
针对XML文档的特性,分析了XML文档中存在的结构和内容上的冗余信息,针对这些冗余给出了COX压缩技术。COX压缩中文XML文档的过程主要分为以下几个步骤:建立字典,查找字典,编码和整合压缩。建立字典分为三个步骤:对XML文档进行中文分词,获得分词及对应的词频信息;根据分词长度和词频信息过滤掉分词长度较短或(和)词频较低的分词;对获得的分词字典根据词频进行排序,高频词汇位于字典首部,低频词汇位于字典尾部,至此得到了编码字典。建立字典之后,再次扫描XML文档,根据一定的条件对数据进行分类,建立相应的容器,查找字典,对于字典项进行前缀编码,对其它类型的数据采用相应的编码方式进行编码;使用通用压缩算法LZMA对编码后的容器进行整合压缩。COX使用了中文分词,建立字典,划分容器等技术,其中建立字典是COX的关键技术。
将COX和其它一些流行压缩软件进行对比实验,实验结果表明在相同的实验环境下对所选取的所有数据集COX的压缩率都超过了其它软件。COX提高了空间利用率,为中文XML文档压缩提供了良好的解决方案。
|
|
|
|
1 |
张伟都,周海东,钟共鸣,张素伟;面向XML的数据管理系统[J];计算机工程与应用;2001年20期 |
2 |
李天庆,张毅,张冰,胡东成;基于XML的体育数据规格化存储技术研究[J];计算机工程与应用;2001年22期 |
3 |
张晓林;基于XML的信息组织与处理:1.XML技术体系[J];情报科学;2001年08期 |
4 |
李慧,何绍华;XML在图书馆系统中的实现技术[J];现代图书情报技术;2001年04期 |
5 |
谈春梅,段卫华,田质斌;标准文献数据库系统的设计与实现[J];现代图书情报技术;2001年06期 |
6 |
李景春,武港山,张福炎;基于转换的光盘文档库数据生成和浏览[J];小型微型计算机系统;2001年04期 |
7 |
周建洪,吴以群,庞引明,楼荣生;XML文件系统的设计[J];计算机工程与科学;2001年02期 |
8 |
袁琳,李秉严;SGML、HTML、XML的比较[J];四川图书馆学报;2001年03期 |
9 |
曹向东;基于JSP的数据访问技术[J];中国民航学院学报;2001年04期 |
10 |
李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期 |
11 |
李军怀,周明全,耿国华,张景西;XML在异构数据集成中的应用研究[J];计算机应用;2002年09期 |
12 |
文燕平,周宁;WWW中的XML数据管理研究[J];情报科学;2002年06期 |
13 |
尹桂秀;XML搜索引擎探微[J];图书情报工作;2002年03期 |
14 |
肖延松,孟波,熊德林,杨子晨;基于XML的数据交换在分布式Web系统中的应用[J];计算机系统应用;2002年03期 |
15 |
陈洪军,陈新度,陈新,郑德涛;新一代基于知识的工程系统[J];中国机械工程;2002年17期 |
16 |
周文生;基于SVG的WebGIS研究[J];中国图象图形学报;2002年07期 |
17 |
梅青;用XML技术实现电子对抗仿真的数据共享[J];舰船电子对抗;2002年06期 |
18 |
黄润才;基于XML的消息队列[J];上海工程技术大学学报;2002年03期 |
19 |
阎慧,李希民,李彩萍;基于XML的WEB安全模型[J];装备指挥技术学院学报;2002年04期 |
20 |
申飞驹,袁红,董建成;XML在数字图书馆中的应用[J];中华医学图书情报杂志;2002年06期 |
|