收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Web环境中半结构化数据存储与查询技术研究

秦杰  
【摘要】:互联网中蕴藏着丰富的信息,如何从浩如烟海的网络信息中快速、有效地查找用户需要的信息一直是网络应用的一个难题。网络信息有相当部分是基于Web的半结构化(semi-structured)数据。半结构化数据的内容与结构相关联,没有统一的结构。随着Web信息的不断膨胀,单纯靠字符串匹配方式从Web中获取用户需要的信息越来越困难。XML是一种半结构化数据描述语言,它克服了传统Web描述语言HTML只能够表达数据的内容,无法表达Web数据的结构特征,不便于半结构化数据查询这一不足,正在逐步替代HTML,成为新一代Web数据描述与数据交换标准。大量XML数据的出现,产生了对XML数据管理的需求。 由于XML描述的Web数据具有半结构化特征,使得以往主要面向结构化数据或者非结构化数据的研究成果不能很好地应用于Web数据处理,因而传统的数据管理方式(如关系数据库管理方式、面向对象数据库管理方式等)不能适应对XML描述的Web数据的管理需求。半结构化数据管理问题成为当前Web数据处理领域的一个研究热点,其中XML描述的半结构化数据的有效存储和查询是Web数据管理的难点问题。 本文围绕XML表达的Web数据存储和查询问题展开研究,研究内容和取得的成果主要体现在以下四方面: 1.数据模型 Web数据模型是对Web数据进行有效管理的前提。数据的有效查询是数据管理的一项重要内容。现有Web数据模型存在两个问题影响Web数据的有效查询:(1) 数据异构问题:由不同Web页面对同一数据对象的命名和描述差异所造成的数据异构问题,对多数据源集成造成了困难,影响了信息查询结果的完全性;(2) 查询回路问题:Web页面之间的超级链接引起的多个页面之间的循环引用,在基于路径的半结构化数据查询过程中会形成查询回路,导致大量重复、无效的查询结果。 针对这两个问题,本文提出了一种新的基于XML的Web数据模型——XWDM。该模型通过对XQuery 1.0和XPath 2.0数据模型的扩充,较好地解决了上述两个问题。 2.数据存储 针对Web环境中半结构化数据没有统一的模式,不便于存储管理这一问题,采用模型映射方式,提出了一种新型的基于关系数据库的半结构化数据存储模型——XPED。 XPED存储模型主要由数据模型,映射模式,索引模式,查询转换以及查询算法五部分构成。该存储模型针对半结构化数据到关系表格数据映射(mapping)这一难题,创造性地提出了三表映射模式,较好地解决了现有映射方式中存在的问题。能够有效地将Web中没有统一模式的XML数据及其附带的结构信息映射为关系数据库中的关系表,从而将基于XML的Web信息查找转换成基于关系数据库的数据查询。该存储模型能够充分利用


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 钱同海;彭显刚;焦悦东;;基于Web数据挖掘的节电降耗实时分析系统设计[J];电力科学与工程;2011年08期
2 杜志强;董方;;基于XML的网络课程资源元数据共享研究[J];天中学刊;2011年02期
3 马欢;;XML在电子商务中的应用[J];China's Foreign Trade;2011年14期
4 李恒;;元数据管理系统的研究与实现[J];电脑知识与技术;2011年13期
5 谢峰;;双XML模式在异构数据交换中的应用研究[J];黑龙江科技信息;2011年21期
6 顾锦江;;基于AS技术的计算机网络虚拟实验的开发[J];计算机应用与软件;2011年07期
7 周强;;XML在动态网页中的应用[J];科技传播;2011年15期
8 周长敏;唐型基;;XML技术在考试系统中的应用研究[J];电脑知识与技术;2011年23期
9 陈爱华;;基于XML和Web Service的异构数据库数据交换[J];武汉船舶职业技术学院学报;2011年04期
10 黎娜;张庆吉;;移动数据库同步技术及其应用[J];现代计算机(专业版);2011年10期
11 刘智琦;徐奕奕;;XML在电子商务中的应用[J];黑龙江科技信息;2011年20期
12 张宗平;张咏;秦慧;;基于Web Services的数据交换平台的应用研究[J];现代计算机;2011年07期
13 李传良;;XML数据访问与数据传输优化[J];科学之友;2011年16期
14 朱兴统;;基于DOM的XML文档到关系数据库的数据转换方法[J];电脑知识与技术;2011年13期
15 曹风华;;比较分析XML与HTML[J];电脑与信息技术;2011年04期
16 晏立;沈锐;;Java序列化技术的探讨[J];红河学院学报;2011年04期
17 查文利;;基于XML的教学课件系统设计和实现[J];硅谷;2011年13期
18 兰慧红;邓欢;;基于XML的网络课件动态目录树的设计与实现[J];广西教育学院学报;2011年03期
19 纪宏伟;;基于MathML的WEB数学公式实现[J];科技经济市场;2011年07期
20 庄青青;;XML技术在数字图书馆跨库检索中的应用[J];情报探索;2011年07期
中国重要会议论文全文数据库 前10条
1 岳昆;吴益忠;王晓玲;周傲英;;基于转换技术的XML文档规范化及更新[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
2 郭瑞强;苏仕云;乐嘉锦;;XML数据的存储模式研究[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 张晓琳;谭跃生;张军;王国仁;;面向对象XML查询代数研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
6 吕建华;周巍;孙冰;王国仁;于戈;;XML查询中RPE索引技术研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 温俊;阳国贵;;XML文档集公共模式获取技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 王天亮;陈刚;徐宏炳;;基于对象树相似匹配的XML重复对象检测[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
9 李然;张云霞;汪卫;施伯乐;;改进的贪心算法在数字图书馆XML元数据存储中的应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
10 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
中国博士学位论文全文数据库 前10条
1 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
2 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
3 孙涛;面向半结构化数据的数据模型和数据挖掘方法研究[D];吉林大学;2010年
4 秦杰;Web环境中半结构化数据存储与查询技术研究[D];国防科学技术大学;2005年
5 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年
6 汪陈应;XML数据编码与存储管理关键技术研究[D];南开大学;2010年
7 杨厚群;半结构化数据频繁模式挖掘相关技术研究[D];重庆大学;2010年
8 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
9 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
10 张晨静;XML关键字过滤技术[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 任辉;XML数据到关系数据映射的研究[D];安徽理工大学;2006年
2 王瑞;半结构化数据集成技术研究[D];大庆石油学院;2007年
3 陈龙;基于WEB信息抽取的企业竞争情报系统研究[D];合肥工业大学;2007年
4 黄蓓蓓;基于XML的多媒体数据转换存储研究[D];暨南大学;2006年
5 陈继明;基于正则路径表达式的XML查询优化技术的研究与实现[D];江苏大学;2005年
6 周超;半结构化XML数据与关系数据库之间转换的应用与研究[D];武汉理工大学;2006年
7 李姝;基于XML的Web数据挖掘研究[D];大连海事大学;2007年
8 陈炳超;基于XML的WEB数据挖掘研究[D];暨南大学;2008年
9 廖鹏;基于XML的Web数据挖掘及关联算法的研究[D];西南大学;2009年
10 李德有;基于XML电子病历数据存贮与转换的研究[D];哈尔滨理工大学;2007年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
6 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
7 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
8 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
9 侯青;国际电子商务XML/EDI特点及现状[N];国际商报;2001年
10 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978