收藏本站
《复旦大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

XML关键字过滤技术

张晨静  
【摘要】:XML是网络数据存储和交换的一种重要标准。在RSS等新型网络应用中,使用XML作为数据表示语言,用户通过关键字来表达查询需求,应用系统获取符合用户查询的XML数据片‘段,作为结果返回给用户。然而网络上的数据日益膨胀,如何从海量的数据流中,过滤有价值的信息片段,不仅具有研究价值,而且具有重要的应用价值。 本文从确定XML、概率XML两个方面,重点研究了基于SLCA (Smallest Low-est Common Ancestor)关键字过滤的效率问题和模型问题。在确定XML环境下,以往针对静态XML数据建立中心索引进行的关键字检索不适用于XML关键字过滤。针对过滤场景下XML数据的特点构造一遍扫描的算法有效实现关键字检索是本文的研究内容之一。本文使用MapReduce分布式计算技术,解决数据膨胀导致的关键字过滤的效率问题。对于概率XML,以往的研究关注于IND (independent)和MUX (mutuallyexclusive)关系的探讨,忽略了兄弟结点间存在的其他依赖关系。对具有广泛兄弟结点依赖关系的概率XML的建模和关键字过滤也是本文的研究内容之一。 本文的主要贡献有: ·给出概率XML中SLCA结点的定义。定义孩子结点传递给父亲结点的信息ta6,给出了tab信息上的点积、加法、笛卡尔积运算,实现概率XML模型PrXML{ind,mux}和PrXML{exp,ind,mux}中基于SLCA的关键字过滤。较同类模型PrXML{ind,mux}上的关键字检索,本文使用的方法效率更高。 ·构建基于贝叶斯网的概率XML模型PrXML-BN。定义从概率XML文档到贝叶斯网的映射方法,将SLCA语义引入贝叶斯网,完成基于SLCA的概率XML关键字过滤。采用图结点约减和结果缓存的方法,提高系统过滤效率。 ·针对确定XML关键字过滤问题,提出了一种高效的SLCA计算服务。它不需要事先构建索引,不依赖于任何结点编码方式,单遍扫描数据就可以得到SLCA结点,避免了以往SLCA检索方法冗余的中间结果,具有较高的关键字过滤效率。·用分布式系统解决大数据量确定XML关键字过滤的效率问题。利用Hadoop-平台,将任务的分解转化为数据的分解,解决XML关键字检索的大数据量问题。为了避免Hadoop平台将结构紧密的XML数据任意透明划分,本文给出大型原生XML文档的拆分策略及一整套XML数据的分布式计算方法。 本文对过滤场景下XML的关键字过滤技术进行了系统的研究,定义概率XML中的SLCA结点,重点讨论了概率XML模型PrXML{exp,ind,mux}和基于贝叶斯网的模型PrXML-BN中SLCA关键字过滤的解决方案及效率问题,提出了确定XML过滤中高效的SLCA计算服务,使用分布式系统解决大数据量关键字过滤的效率问题。未来拟对海量不确定数据的信息提取和数据质量进行研究。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP311.11

【相似文献】
中国期刊全文数据库 前10条
1 张伟都,周海东,钟共鸣,张素伟;面向XML的数据管理系统[J];计算机工程与应用;2001年20期
2 李天庆,张毅,张冰,胡东成;基于XML的体育数据规格化存储技术研究[J];计算机工程与应用;2001年22期
3 张晓林;基于XML的信息组织与处理:1.XML技术体系[J];情报科学;2001年08期
4 李慧,何绍华;XML在图书馆系统中的实现技术[J];现代图书情报技术;2001年04期
5 谈春梅,段卫华,田质斌;标准文献数据库系统的设计与实现[J];现代图书情报技术;2001年06期
6 李景春,武港山,张福炎;基于转换的光盘文档库数据生成和浏览[J];小型微型计算机系统;2001年04期
7 周建洪,吴以群,庞引明,楼荣生;XML文件系统的设计[J];计算机工程与科学;2001年02期
8 袁琳,李秉严;SGML、HTML、XML的比较[J];四川图书馆学报;2001年03期
9 曹向东;基于JSP的数据访问技术[J];中国民航学院学报;2001年04期
10 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
中国重要会议论文全文数据库 前10条
1 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
4 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
9 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 肖冰;廖湖声;郑玉明;;数据集成系统中的XML延迟处理技术[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
6 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
7 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
8 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
9 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
10 侯青;国际电子商务XML/EDI特点及现状[N];国际商报;2001年
中国博士学位论文全文数据库 前10条
1 张晨静;XML关键字过滤技术[D];复旦大学;2011年
2 蔺旭东;基于语义的XML查询及规范化研究[D];北京交通大学;2010年
3 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
4 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
5 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
6 胡文生;XML数据流上基于窗口的查询处理方法研究[D];武汉大学;2012年
7 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
8 汪源;XML事务模型及并发控制研究[D];浙江大学;2006年
9 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
10 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱杰;基于主题和结构的XML网页的数据抽取[D];华侨大学;2005年
2 刘靖超;面向数据采集的信息集成系统设计与实现[D];河北工业大学;2005年
3 王旭磊;基于CBR的电子商务网站智能设计系统的研究[D];青岛大学;2005年
4 李志明;基于Web服务的在线考试系统应用研究与实现[D];广东工业大学;2005年
5 江静;基于XML的公文管理系统设计与应用研究[D];南京理工大学;2005年
6 陈美云;基于XML的柔性信息集成技术研究[D];山东科技大学;2005年
7 朱瑜;工作流引擎研究与实现[D];电子科技大学;2005年
8 谢红;XML技术和B/S模式在职业教育与培训管理信息系统中的应用研究[D];重庆大学;2005年
9 郦金花;基于XML的MARC发布系统的设计与实现[D];苏州大学;2005年
10 沈剑沧;XML查询方法研究[D];华东师范大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026