XML关键字过滤技术
【摘要】:XML是网络数据存储和交换的一种重要标准。在RSS等新型网络应用中,使用XML作为数据表示语言,用户通过关键字来表达查询需求,应用系统获取符合用户查询的XML数据片‘段,作为结果返回给用户。然而网络上的数据日益膨胀,如何从海量的数据流中,过滤有价值的信息片段,不仅具有研究价值,而且具有重要的应用价值。
本文从确定XML、概率XML两个方面,重点研究了基于SLCA (Smallest Low-est Common Ancestor)关键字过滤的效率问题和模型问题。在确定XML环境下,以往针对静态XML数据建立中心索引进行的关键字检索不适用于XML关键字过滤。针对过滤场景下XML数据的特点构造一遍扫描的算法有效实现关键字检索是本文的研究内容之一。本文使用MapReduce分布式计算技术,解决数据膨胀导致的关键字过滤的效率问题。对于概率XML,以往的研究关注于IND (independent)和MUX (mutuallyexclusive)关系的探讨,忽略了兄弟结点间存在的其他依赖关系。对具有广泛兄弟结点依赖关系的概率XML的建模和关键字过滤也是本文的研究内容之一。
本文的主要贡献有:
·给出概率XML中SLCA结点的定义。定义孩子结点传递给父亲结点的信息ta6,给出了tab信息上的点积、加法、笛卡尔积运算,实现概率XML模型PrXML{ind,mux}和PrXML{exp,ind,mux}中基于SLCA的关键字过滤。较同类模型PrXML{ind,mux}上的关键字检索,本文使用的方法效率更高。
·构建基于贝叶斯网的概率XML模型PrXML-BN。定义从概率XML文档到贝叶斯网的映射方法,将SLCA语义引入贝叶斯网,完成基于SLCA的概率XML关键字过滤。采用图结点约减和结果缓存的方法,提高系统过滤效率。
·针对确定XML关键字过滤问题,提出了一种高效的SLCA计算服务。它不需要事先构建索引,不依赖于任何结点编码方式,单遍扫描数据就可以得到SLCA结点,避免了以往SLCA检索方法冗余的中间结果,具有较高的关键字过滤效率。·用分布式系统解决大数据量确定XML关键字过滤的效率问题。利用Hadoop-平台,将任务的分解转化为数据的分解,解决XML关键字检索的大数据量问题。为了避免Hadoop平台将结构紧密的XML数据任意透明划分,本文给出大型原生XML文档的拆分策略及一整套XML数据的分布式计算方法。
本文对过滤场景下XML的关键字过滤技术进行了系统的研究,定义概率XML中的SLCA结点,重点讨论了概率XML模型PrXML{exp,ind,mux}和基于贝叶斯网的模型PrXML-BN中SLCA关键字过滤的解决方案及效率问题,提出了确定XML过滤中高效的SLCA计算服务,使用分布式系统解决大数据量关键字过滤的效率问题。未来拟对海量不确定数据的信息提取和数据质量进行研究。
|
|
|
|
1 |
张伟都,周海东,钟共鸣,张素伟;面向XML的数据管理系统[J];计算机工程与应用;2001年20期 |
2 |
李天庆,张毅,张冰,胡东成;基于XML的体育数据规格化存储技术研究[J];计算机工程与应用;2001年22期 |
3 |
张晓林;基于XML的信息组织与处理:1.XML技术体系[J];情报科学;2001年08期 |
4 |
李慧,何绍华;XML在图书馆系统中的实现技术[J];现代图书情报技术;2001年04期 |
5 |
谈春梅,段卫华,田质斌;标准文献数据库系统的设计与实现[J];现代图书情报技术;2001年06期 |
6 |
李景春,武港山,张福炎;基于转换的光盘文档库数据生成和浏览[J];小型微型计算机系统;2001年04期 |
7 |
周建洪,吴以群,庞引明,楼荣生;XML文件系统的设计[J];计算机工程与科学;2001年02期 |
8 |
袁琳,李秉严;SGML、HTML、XML的比较[J];四川图书馆学报;2001年03期 |
9 |
曹向东;基于JSP的数据访问技术[J];中国民航学院学报;2001年04期 |
10 |
李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期 |
11 |
李军怀,周明全,耿国华,张景西;XML在异构数据集成中的应用研究[J];计算机应用;2002年09期 |
12 |
文燕平,周宁;WWW中的XML数据管理研究[J];情报科学;2002年06期 |
13 |
尹桂秀;XML搜索引擎探微[J];图书情报工作;2002年03期 |
14 |
肖延松,孟波,熊德林,杨子晨;基于XML的数据交换在分布式Web系统中的应用[J];计算机系统应用;2002年03期 |
15 |
陈洪军,陈新度,陈新,郑德涛;新一代基于知识的工程系统[J];中国机械工程;2002年17期 |
16 |
周文生;基于SVG的WebGIS研究[J];中国图象图形学报;2002年07期 |
17 |
梅青;用XML技术实现电子对抗仿真的数据共享[J];舰船电子对抗;2002年06期 |
18 |
黄润才;基于XML的消息队列[J];上海工程技术大学学报;2002年03期 |
19 |
阎慧,李希民,李彩萍;基于XML的WEB安全模型[J];装备指挥技术学院学报;2002年04期 |
20 |
申飞驹,袁红,董建成;XML在数字图书馆中的应用[J];中华医学图书情报杂志;2002年06期 |
|