收藏本站
《东北大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web中Web数据库集成关键技术的研究

聂铁铮  
【摘要】:随着互联网技术的飞速发展,Web中蕴藏的海量数据信息也在迅速地增长。Web数据库作为一种重要的Deep Web资源,其中包含了大量可供访问的数据信息。这些数据信息具有良好的结构化特征且指向特定领域的数据记录,因此能够为科学研究和系统应用提供更高质量的数据服务。然而,在Deep Web中,Web数据库具有异构性、分布性、动态性和自治性,独立存在于Web环境中,这些高质量的数据资源并没有得到很好的利用。Web数据库集成为有效地统一访问这些数据资源提供了解决方案。作为一个新兴的研究领域,Web数据库集成中包含了若干需要解决的研究问题。本文分析了Web数据库集成的研究现状,讨论了Web数据库集成框架的结构模型,重点研究了Web数据库集成中的若干关键技术,包括Web数据库的模式抽取、Web数据库的分类、查询结果记录的抽取与标注和数据的集成与清洗等。本文针对Web数据库集成中主要的研究问题提出了新颖、有效的解决方法,主要工作包括以下几点: (1)提出了一种基于元搜索模式的Web数据库集成框架。Web数据库集成框架的目的是为用户统一访问Web数据库资源提供支持。基于元搜索模式的Web数据库集成框架,能够透明的访问和及时的更新数据,并具有较低的系统运行代价。本文分析了实现Web数据库集成框架中所需的关键技术,将框架分为离线的Web数据库搜索模块和在线的查询处理模块。前者是从Web中发现特定领域Web数据库的查询接口,抽取其模式信息并对其进行分类;后者的目的是实现对Web数据库即时访问,抽取并标注查询结果记录,并将集成后的结果数据集返回给用户。 (2)提出了基于实例的查询结果模式抽取方法。完整的模式信息对于数据集成有着至关重要的作用。对于Web数据库而言,查询接口模式决定其功能,而查询结果模式描述了其中的数据内容。现有的研究工作往往只关注于查询接口模式而忽略了查询结果模式。本文给出了基于标签的查询接口模式属性识别方法。在此基础上,提出了基于近似查询和精确查询的两段式模式匹配模型。通过在结果页面的DOM树中匹配查询关键字,并利用查询结果记录在页面中连续出现的特征识别模式属性。同时提出基于属性共现度的匹配方法提高模式属性的查全率和查准率。 (3)提出了面向内容的Web数据库分类方法。现有基于领域的Web数据库分类方法已难以满足应用需求。为此,本文提出将领域中记录基于其内容划分为多个主题分类。主要解决方案为:使用主题分类中的样本实例对Web数据库查询探测,并基于查询返回的结果数量构建查询结果矩阵,该矩阵能够准确地反映出主题分类与Web数据库内容之间的匹配关系;基于矩阵内容得到主题分类。基于内容的分类结果能够为查询更准确地匹配Web数据库。 (4)提出了一种有效的查询结果记录抽取技术。为避免对大量页面内容的语义匹配,有效地保证数据抽取的执行效率,本文首先基于URL匹配的方法准确的确定要抓取查询结果页面;之后利用查询结果模式抽取中识别出的模式属性路径定位查询结果记录,并实现查询结果记录的抽取与标注。基于属性路径构建的包装器能有效的改善连续查询结果页面中记录抽取的执行效率。 (5)提出了一种基于模式属性间函数依赖关系的数据清洗方法。为提高来自多个Web数据库的查询结果记录的数据质量,该方法借助于实体识别技术,利用模式属性间函数依赖关系,能够有效地修复查询结果记录中不完全、不精确和不正确的属性值。同时,给出了增量式数据集成方法,即通过对记录集合的数据质量评估结果决定集成的顺序,有效地提高了数据集成的执行效率。 (6)设计并实现了一个Web数据库集成的原型系统DDW Search。基于本文对Web数据库集成框架关键技术的研究成果,实现了基于特定领域的原型系统。用户可以通过系统提供的全局查询接口输入查询请求,并查看由多个Web数据库返回的查询结果。 总之,本文研究了Web数据库集成框架及涉及的关键技术,对其中包含的主要研究问题提出了新颖的解决方案。大量的实验结果与分析表明这些方法能够有效地解决在Web数据库集成中存在的问题,同时具有较高的准确性和执行性能。希望本文对于Web数据库集成的研究和提出这些方法对于这一领域的研究工作具有一定的参考价值。
【学位授予单位】:东北大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前4条
1 孟小峰;Web数据管理研究综述[J];计算机研究与发展;2001年04期
2 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
3 孔令波;唐世渭;杨冬青;王腾蛟;高军;;XML数据的查询技术[J];软件学报;2007年06期
4 孟小峰;于戈;;Deep Web数据集成专刊前言[J];软件学报;2008年02期
【共引文献】
中国期刊全文数据库 前10条
1 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
2 陈祥松,邓苏,黄宏斌;GLAV集成方法中的模式匹配研究[J];安徽工程科技学院学报(自然科学版);2004年04期
3 赵靖;王侨文;管马周;单传佳;;自动提取布局结构相似网页的结构化信息[J];安徽科技学院学报;2010年06期
4 王宏鼎;谭少华;唐世渭;杨冬青;童云海;;基于模式元素语义关系的模式合并方法研究[J];北京大学学报(自然科学版)网络版(预印本);2006年04期
5 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
6 王宏鼎;谭少华;唐世渭;杨冬青;童云海;;基于模式元素语义关系的模式合并方法研究[J];北京大学学报(自然科学版);2007年03期
7 张维蔚;李超;曾骁;熊璋;;一种多策略GML应用模式匹配方法[J];北京航空航天大学学报;2008年05期
8 毕鲁雁;焦宗夏;范圣韬;;机电系统多学科综合设计异构信息集成[J];北京航空航天大学学报;2009年04期
9 陶磊;莫倩;;基于CSS选择器的深网结果页抽取方法[J];北京工商大学学报(自然科学版);2009年02期
10 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
中国重要会议论文全文数据库 前10条
1 ;Discovering Complex Matches Between Database Schemas[A];第二十七届中国控制会议论文集[C];2008年
2 孙科武;许斌;罗森;;属性驱动的Web服务分类方法[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
3 王育红;陈军;;GIS客户数据库更新自动化实施算法研究[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
4 王育红;蒋捷;;基础地理信息的客户更新服务问题[A];中国地理信息系统协会第八届年会论文集[C];2004年
5 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
6 佟冰;张忠平;宋丽;;一种改进的多源模式匹配算法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
7 刘通;刘国华;刘欣;王聪;;ISMD:一种基于副本的完整模式匹配算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
8 钱颖;刘国华;张忠平;沈兵红;张凌宇;;基于聚类的模式匹配方法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
9 杜琦;巩政;;基于字符串相似度的自动评分算法实现[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
10 刘杰;李伟光;刘振广;;基于BP神经网络的数据库模式匹配方法研究[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
2 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
5 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
6 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
7 宋雅娟;Web服务组合方法研究[D];吉林大学;2011年
8 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
9 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
10 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 王强;基于演示编程的遥感图像元数据提取方法研究[D];山东科技大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 商翠珍;数据资源汇聚的可视化建模技术研究与应用[D];山东科技大学;2010年
5 朱静;数据资源汇聚中嵌套表格模型的研究与应用[D];山东科技大学;2010年
6 徐扬;异构数据资源汇聚的模式及优化问题研究[D];山东科技大学;2010年
7 夏怀楠;支持跨域数据汇聚的关系数据访问服务研究[D];山东科技大学;2010年
8 曾祥莉;ETL在经济普查信息发布系统中的应用研究[D];哈尔滨工程大学;2010年
9 李伟光;基于BP神经网络的数据库模式匹配方法研究[D];哈尔滨工程大学;2010年
10 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前6条
1 万常选,刘云生,徐升华,刘喜平,林大海;基于区间编码的XML索引结构的有效结构连接[J];计算机学报;2005年01期
2 王静,孟小峰,王珊;基于区域划分的XML结构连接[J];软件学报;2004年05期
3 孟小峰,周龙骧,王珊;数据库技术发展趋势[J];软件学报;2004年12期
4 王静,孟小峰,王宇,王珊;以目标节点为导向的XML路径查询处理[J];软件学报;2005年05期
5 孔令波;唐世渭;杨冬青;王腾蛟;高军;;XML数据索引技术[J];软件学报;2005年12期
6 孟小峰;王宇;王小锋;;XML查询优化研究[J];软件学报;2006年10期
【相似文献】
中国期刊全文数据库 前10条
1 武海丽;;数字化校园中数据库集成技术的研究[J];电脑学习;2010年03期
2 应峻;徐一新;;电子期刊与馆藏重复[J];图书情报工作;2006年01期
3 王思远,刘纪远,张增祥,张宗科;资源环境监测信息系统集成平台的设计与实现[J];计算机工程与应用;2002年08期
4 李周明;;数字化工程基础数据库设计与集成模式探讨[J];航空计算技术;2007年05期
5 李伟;;基于XML+DOM4J的数据库集成技术研究[J];电脑知识与技术(学术交流);2007年05期
6 刘艳玉;吴雅琴;;网格数据库访问与集成的研究[J];福建电脑;2007年07期
7 王国仁,郑怀远;基于EER的数据库集成方法的研究[J];计算机研究与发展;1993年12期
8 吴秀清,陈晓辉;动态Web网页与数据库集成技术[J];微计算机应用;1998年06期
9 邱家武,黄静;Intranet技术在企业信息系统中的应用[J];教育信息化;2000年03期
10 史晔翎;黎建辉;;关系数据库模式到XML Schema的通用映射模型[J];计算机工程;2009年07期
中国重要会议论文全文数据库 前10条
1 唐世渭;杨冬青;黄琨;;DBIT——一个数据库集成工具[A];第九届全国数据库学术会议论文集(下)[C];1990年
2 胡华;宋荷庆;乐嘉锦;;基于XML的多Web数据库集成[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
3 吉建培;王东华;商瑶玲;严荣华;廖安平;;国家1:50000数据库集成管理系统设计与实现[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集(下册)[C];2006年
4 吉建培;王东华;商瑶玲;严荣华;廖安平;;国家1:50000数据库集成管理系统设计与实现[A];中国测绘学会2006年学术年会论文集[C];2006年
5 马立国;尚辉;;东营市基于网络的市级土地利用现状数据库集成应用[A];山东省“数字国土”学术交流会论文集[C];2007年
6 陈智健;肖庆文;沈达阳;林作铨;;Agent技术在Web与数据库集成中的应用[A];1998年中国智能自动化学术会议论文集(下册)[C];1998年
7 吴钢;;乌石化综合信息服务系统的设计与实现方法[A];第六届全国计算机应用联合学术会议论文集[C];2002年
8 何欢乐;曾珏;戴建旺;;县级土地利用数据库集成应用体系建设初探[A];新技术在土地调查中的应用与土地科学技术发展-2005年中国土地学会学术年会论文集[C];2005年
9 胡辉;谢梅生;;江西省萍乡市基于网络的县级土地利用数据库集成应用研究初探[A];2006年中国土地学会学术年会论文集[C];2006年
10 许桂芝;翟秉仁;陈丕富;蔡鸿;张爽;;采油厂生产管理信息系统的数据库集成[A];1996中国控制与决策学术年会论文集[C];1996年
中国重要报纸全文数据库 前10条
1 赵晓涛;信誉技术改变安全思路[N];网络世界;2007年
2 本报记者 于翔;资产管理的“核”问题[N];网络世界;2005年
3 David Shimbo Charles Karren Hossam Farid;“数字油田”——石油行业发展新模式[N];中国冶金报;2008年
4 ;开放源码数据库增长迅速[N];计算机世界;2004年
5 李骏 唐宁九 赵杉 周先涛 靳泰戈 吴淞;网格技术 让社会保险网络系统全国畅联[N];中国计算机报;2006年
6 本报记者 中国人民大学信息学院 王珊 张坤龙;网格环境下的数据库系统[N];中国计算机报;2005年
7 清大;多管齐下抓服务[N];计算机世界;2006年
8 时玉龙 邓达康;地震勘探数据管理技术序列形成[N];中国石化报;2007年
9 首席记者 杨明剑;我区一科技项目获国家科技进步二等奖[N];新疆科技报(汉);2007年
10 杨江波;世界大公司纷纷瞄准中国企业呼叫中心市场[N];市场报;2004年
中国博士学位论文全文数据库 前8条
1 董国卿;基于模糊本体的网格数据库集成研究[D];上海大学;2013年
2 徐东晖;基于Web的应用开发和数据库集成技术研究[D];西安电子科技大学;1998年
3 聂铁铮;Deep Web中Web数据库集成关键技术的研究[D];东北大学;2009年
4 罗永兴;基于网格技术的医疗信息系统集成研究[D];上海交通大学;2008年
5 陈庆涛;.NET和分布式(网络)数据库集成技术支持下的WEB GIS系统研究与开发[D];成都理工大学;2008年
6 鲁铭;基于本体的异构导航数据库集成与空间信息语义服务研究[D];华东师范大学;2006年
7 覃如府;中国岩石圈三维结构数据库集成及其管理系统开发研究[D];吉林大学;2006年
8 强保华;异构数据库语义集成技术研究[D];重庆大学;2005年
中国硕士学位论文全文数据库 前10条
1 范军;数据库集成技术在内河航运信息系统中的应用研究[D];武汉理工大学;2010年
2 赵晓君;基于JMS和XML的异构数据库集成研究[D];武汉理工大学;2005年
3 邓青;异构Web数据库集成中查询接口模式匹配问题的研究[D];合肥工业大学;2011年
4 吴婉莲;基于XML的异构数据库集成技术研究[D];华东师范大学;2006年
5 龙海威;图书馆异构数据库信息共享技术研究与实现[D];重庆大学;2008年
6 赵剑;基于软件Agent的异构数据库集成及安全机制研究[D];大庆石油学院;2009年
7 王敬乐;基于CORBA的异构数据库集成技术研究[D];河北工业大学;2002年
8 文成日;基于J2EE与XML的决策分析系统的研究与实现[D];大连交通大学;2010年
9 陈毅红;基于CIAgent技术的分布式数据库研究与设计[D];西南石油学院;2005年
10 刘威;基于Eclipse插件技术的异构数据库集成研究[D];重庆大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026