收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文XML压缩技术研究

张山山  
【摘要】:随着可扩展标记语言(Extensible Markup Language,简称XML)的广泛应用,互联网以及本地计算机上存在着大量的中文XML文档需要存储和交换。XML是一种元语言,可以用来描述其它数据,并且XML具有简单、灵活、跨平台等特性。但是XML格式冗余巨大,空间利用率低。为了提高空间利用率,提高数据交换的速度,给出了一种高压缩率中文XML文档的专用压缩解决方案COX(Chinese-Oriented XML Compressor)并实现了该系统。 针对XML文档的特性,分析了XML文档中存在的结构和内容上的冗余信息,针对这些冗余给出了COX压缩技术。COX压缩中文XML文档的过程主要分为以下几个步骤:建立字典,查找字典,编码和整合压缩。建立字典分为三个步骤:对XML文档进行中文分词,获得分词及对应的词频信息;根据分词长度和词频信息过滤掉分词长度较短或(和)词频较低的分词;对获得的分词字典根据词频进行排序,高频词汇位于字典首部,低频词汇位于字典尾部,至此得到了编码字典。建立字典之后,再次扫描XML文档,根据一定的条件对数据进行分类,建立相应的容器,查找字典,对于字典项进行前缀编码,对其它类型的数据采用相应的编码方式进行编码;使用通用压缩算法LZMA对编码后的容器进行整合压缩。COX使用了中文分词,建立字典,划分容器等技术,其中建立字典是COX的关键技术。 将COX和其它一些流行压缩软件进行对比实验,实验结果表明在相同的实验环境下对所选取的所有数据集COX的压缩率都超过了其它软件。COX提高了空间利用率,为中文XML文档压缩提供了良好的解决方案。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张伟都,周海东,钟共鸣,张素伟;面向XML的数据管理系统[J];计算机工程与应用;2001年20期
2 李天庆,张毅,张冰,胡东成;基于XML的体育数据规格化存储技术研究[J];计算机工程与应用;2001年22期
3 张晓林;基于XML的信息组织与处理:1.XML技术体系[J];情报科学;2001年08期
4 李慧,何绍华;XML在图书馆系统中的实现技术[J];现代图书情报技术;2001年04期
5 谈春梅,段卫华,田质斌;标准文献数据库系统的设计与实现[J];现代图书情报技术;2001年06期
6 李景春,武港山,张福炎;基于转换的光盘文档库数据生成和浏览[J];小型微型计算机系统;2001年04期
7 周建洪,吴以群,庞引明,楼荣生;XML文件系统的设计[J];计算机工程与科学;2001年02期
8 袁琳,李秉严;SGML、HTML、XML的比较[J];四川图书馆学报;2001年03期
9 曹向东;基于JSP的数据访问技术[J];中国民航学院学报;2001年04期
10 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
11 李军怀,周明全,耿国华,张景西;XML在异构数据集成中的应用研究[J];计算机应用;2002年09期
12 文燕平,周宁;WWW中的XML数据管理研究[J];情报科学;2002年06期
13 尹桂秀;XML搜索引擎探微[J];图书情报工作;2002年03期
14 肖延松,孟波,熊德林,杨子晨;基于XML的数据交换在分布式Web系统中的应用[J];计算机系统应用;2002年03期
15 陈洪军,陈新度,陈新,郑德涛;新一代基于知识的工程系统[J];中国机械工程;2002年17期
16 周文生;基于SVG的WebGIS研究[J];中国图象图形学报;2002年07期
17 梅青;用XML技术实现电子对抗仿真的数据共享[J];舰船电子对抗;2002年06期
18 黄润才;基于XML的消息队列[J];上海工程技术大学学报;2002年03期
19 阎慧,李希民,李彩萍;基于XML的WEB安全模型[J];装备指挥技术学院学报;2002年04期
20 申飞驹,袁红,董建成;XML在数字图书馆中的应用[J];中华医学图书情报杂志;2002年06期
中国重要会议论文全文数据库 前10条
1 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
4 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
9 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 肖冰;廖湖声;郑玉明;;数据集成系统中的XML延迟处理技术[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国博士学位论文全文数据库 前10条
1 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
2 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
3 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
4 张晨静;XML关键字过滤技术[D];复旦大学;2011年
5 胡文生;XML数据流上基于窗口的查询处理方法研究[D];武汉大学;2012年
6 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
7 汪源;XML事务模型及并发控制研究[D];浙江大学;2006年
8 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
9 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
10 李荷华;面向智能体的化工过程运行系统信息集成模型研究[D];华南理工大学;2003年
中国硕士学位论文全文数据库 前10条
1 张山山;中文XML压缩技术研究[D];华中科技大学;2011年
2 朱杰;基于主题和结构的XML网页的数据抽取[D];华侨大学;2005年
3 刘靖超;面向数据采集的信息集成系统设计与实现[D];河北工业大学;2005年
4 王旭磊;基于CBR的电子商务网站智能设计系统的研究[D];青岛大学;2005年
5 李志明;基于Web服务的在线考试系统应用研究与实现[D];广东工业大学;2005年
6 江静;基于XML的公文管理系统设计与应用研究[D];南京理工大学;2005年
7 陈美云;基于XML的柔性信息集成技术研究[D];山东科技大学;2005年
8 朱瑜;工作流引擎研究与实现[D];电子科技大学;2005年
9 谢红;XML技术和B/S模式在职业教育与培训管理信息系统中的应用研究[D];重庆大学;2005年
10 郦金花;基于XML的MARC发布系统的设计与实现[D];苏州大学;2005年
中国重要报纸全文数据库 前10条
1 张海桐;用中文把歌剧唱出来[N];人民日报海外版;2011年
2 张伟城;中文热持续升温[N];人民日报海外版;2009年
3 朱珉迕;说中文和“拌洋荤”[N];解放日报;2009年
4 本报驻巴黎记者 姚立;“中文热”在法升温速度令人始料不及[N];光明日报;2010年
5 刘菲;关注特殊的学中文群体[N];人民日报海外版;2011年
6 记者钟哲 通讯员李世举;合编首部“民族版”高校中文教材[N];中国社会科学报;2010年
7 ;“汉语桥”世界大学生中文比赛举行[N];人民日报;2011年
8 晓阳;《选报》落户起点中文网[N];中华新闻报;2009年
9 ;中文在线 “九死一生”的出版经历[N];电脑报;2010年
10 本报记者 原小瑛;欧特克发布中文工厂设计软件[N];中国化工报;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978