收藏本站
《东北大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web中Web数据库集成关键技术的研究

聂铁铮  
【摘要】:随着互联网技术的飞速发展,Web中蕴藏的海量数据信息也在迅速地增长。Web数据库作为一种重要的Deep Web资源,其中包含了大量可供访问的数据信息。这些数据信息具有良好的结构化特征且指向特定领域的数据记录,因此能够为科学研究和系统应用提供更高质量的数据服务。然而,在Deep Web中,Web数据库具有异构性、分布性、动态性和自治性,独立存在于Web环境中,这些高质量的数据资源并没有得到很好的利用。Web数据库集成为有效地统一访问这些数据资源提供了解决方案。作为一个新兴的研究领域,Web数据库集成中包含了若干需要解决的研究问题。本文分析了Web数据库集成的研究现状,讨论了Web数据库集成框架的结构模型,重点研究了Web数据库集成中的若干关键技术,包括Web数据库的模式抽取、Web数据库的分类、查询结果记录的抽取与标注和数据的集成与清洗等。本文针对Web数据库集成中主要的研究问题提出了新颖、有效的解决方法,主要工作包括以下几点: (1)提出了一种基于元搜索模式的Web数据库集成框架。Web数据库集成框架的目的是为用户统一访问Web数据库资源提供支持。基于元搜索模式的Web数据库集成框架,能够透明的访问和及时的更新数据,并具有较低的系统运行代价。本文分析了实现Web数据库集成框架中所需的关键技术,将框架分为离线的Web数据库搜索模块和在线的查询处理模块。前者是从Web中发现特定领域Web数据库的查询接口,抽取其模式信息并对其进行分类;后者的目的是实现对Web数据库即时访问,抽取并标注查询结果记录,并将集成后的结果数据集返回给用户。 (2)提出了基于实例的查询结果模式抽取方法。完整的模式信息对于数据集成有着至关重要的作用。对于Web数据库而言,查询接口模式决定其功能,而查询结果模式描述了其中的数据内容。现有的研究工作往往只关注于查询接口模式而忽略了查询结果模式。本文给出了基于标签的查询接口模式属性识别方法。在此基础上,提出了基于近似查询和精确查询的两段式模式匹配模型。通过在结果页面的DOM树中匹配查询关键字,并利用查询结果记录在页面中连续出现的特征识别模式属性。同时提出基于属性共现度的匹配方法提高模式属性的查全率和查准率。 (3)提出了面向内容的Web数据库分类方法。现有基于领域的Web数据库分类方法已难以满足应用需求。为此,本文提出将领域中记录基于其内容划分为多个主题分类。主要解决方案为:使用主题分类中的样本实例对Web数据库查询探测,并基于查询返回的结果数量构建查询结果矩阵,该矩阵能够准确地反映出主题分类与Web数据库内容之间的匹配关系;基于矩阵内容得到主题分类。基于内容的分类结果能够为查询更准确地匹配Web数据库。 (4)提出了一种有效的查询结果记录抽取技术。为避免对大量页面内容的语义匹配,有效地保证数据抽取的执行效率,本文首先基于URL匹配的方法准确的确定要抓取查询结果页面;之后利用查询结果模式抽取中识别出的模式属性路径定位查询结果记录,并实现查询结果记录的抽取与标注。基于属性路径构建的包装器能有效的改善连续查询结果页面中记录抽取的执行效率。 (5)提出了一种基于模式属性间函数依赖关系的数据清洗方法。为提高来自多个Web数据库的查询结果记录的数据质量,该方法借助于实体识别技术,利用模式属性间函数依赖关系,能够有效地修复查询结果记录中不完全、不精确和不正确的属性值。同时,给出了增量式数据集成方法,即通过对记录集合的数据质量评估结果决定集成的顺序,有效地提高了数据集成的执行效率。 (6)设计并实现了一个Web数据库集成的原型系统DDW Search。基于本文对Web数据库集成框架关键技术的研究成果,实现了基于特定领域的原型系统。用户可以通过系统提供的全局查询接口输入查询请求,并查看由多个Web数据库返回的查询结果。 总之,本文研究了Web数据库集成框架及涉及的关键技术,对其中包含的主要研究问题提出了新颖的解决方案。大量的实验结果与分析表明这些方法能够有效地解决在Web数据库集成中存在的问题,同时具有较高的准确性和执行性能。希望本文对于Web数据库集成的研究和提出这些方法对于这一领域的研究工作具有一定的参考价值。
【学位授予单位】:东北大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP311.13

免费申请
【参考文献】
中国期刊全文数据库 前4条
1 孟小峰;Web数据管理研究综述[J];计算机研究与发展;2001年04期
2 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
3 孔令波;唐世渭;杨冬青;王腾蛟;高军;;XML数据的查询技术[J];软件学报;2007年06期
4 孟小峰;于戈;;Deep Web数据集成专刊前言[J];软件学报;2008年02期
【共引文献】
中国期刊全文数据库 前10条
1 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
2 陈祥松,邓苏,黄宏斌;GLAV集成方法中的模式匹配研究[J];安徽工程科技学院学报(自然科学版);2004年04期
3 赵靖;王侨文;管马周;单传佳;;自动提取布局结构相似网页的结构化信息[J];安徽科技学院学报;2010年06期
4 王宏鼎;谭少华;唐世渭;杨冬青;童云海;;基于模式元素语义关系的模式合并方法研究[J];北京大学学报(自然科学版)网络版(预印本);2006年04期
5 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
6 王宏鼎;谭少华;唐世渭;杨冬青;童云海;;基于模式元素语义关系的模式合并方法研究[J];北京大学学报(自然科学版);2007年03期
7 张维蔚;李超;曾骁;熊璋;;一种多策略GML应用模式匹配方法[J];北京航空航天大学学报;2008年05期
8 毕鲁雁;焦宗夏;范圣韬;;机电系统多学科综合设计异构信息集成[J];北京航空航天大学学报;2009年04期
9 陶磊;莫倩;;基于CSS选择器的深网结果页抽取方法[J];北京工商大学学报(自然科学版);2009年02期
10 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
中国重要会议论文全文数据库 前10条
1 ;Discovering Complex Matches Between Database Schemas[A];第二十七届中国控制会议论文集[C];2008年
2 孙科武;许斌;罗森;;属性驱动的Web服务分类方法[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
3 王育红;陈军;;GIS客户数据库更新自动化实施算法研究[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
4 王育红;蒋捷;;基础地理信息的客户更新服务问题[A];中国地理信息系统协会第八届年会论文集[C];2004年
5 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
6 佟冰;张忠平;宋丽;;一种改进的多源模式匹配算法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
7 刘通;刘国华;刘欣;王聪;;ISMD:一种基于副本的完整模式匹配算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
8 钱颖;刘国华;张忠平;沈兵红;张凌宇;;基于聚类的模式匹配方法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
9 杜琦;巩政;;基于字符串相似度的自动评分算法实现[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
10 刘杰;李伟光;刘振广;;基于BP神经网络的数据库模式匹配方法研究[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
2 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
5 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
6 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
7 宋雅娟;Web服务组合方法研究[D];吉林大学;2011年
8 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
9 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
10 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 王强;基于演示编程的遥感图像元数据提取方法研究[D];山东科技大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 商翠珍;数据资源汇聚的可视化建模技术研究与应用[D];山东科技大学;2010年
5 朱静;数据资源汇聚中嵌套表格模型的研究与应用[D];山东科技大学;2010年
6 徐扬;异构数据资源汇聚的模式及优化问题研究[D];山东科技大学;2010年
7 夏怀楠;支持跨域数据汇聚的关系数据访问服务研究[D];山东科技大学;2010年
8 曾祥莉;ETL在经济普查信息发布系统中的应用研究[D];哈尔滨工程大学;2010年
9 李伟光;基于BP神经网络的数据库模式匹配方法研究[D];哈尔滨工程大学;2010年
10 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前6条
1 万常选,刘云生,徐升华,刘喜平,林大海;基于区间编码的XML索引结构的有效结构连接[J];计算机学报;2005年01期
2 王静,孟小峰,王珊;基于区域划分的XML结构连接[J];软件学报;2004年05期
3 孟小峰,周龙骧,王珊;数据库技术发展趋势[J];软件学报;2004年12期
4 王静,孟小峰,王宇,王珊;以目标节点为导向的XML路径查询处理[J];软件学报;2005年05期
5 孔令波;唐世渭;杨冬青;王腾蛟;高军;;XML数据索引技术[J];软件学报;2005年12期
6 孟小峰;王宇;王小锋;;XML查询优化研究[J];软件学报;2006年10期
【相似文献】
中国期刊全文数据库 前10条
1 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期
2 李方敏;CGI的安全编程[J];计算机工程与应用;1999年06期
3 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期
4 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期
5 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期
6 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期
7 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期
8 李晶,朱秋萍;Web页制作中的动态表现技术[J];计算机工程;2000年06期
9 刘波,代亚非,杜跃进;远程协同教学系统中课程搜索子系统设计[J];计算机应用;2000年06期
10 武庄,刘友丹;基于Web的企业内部质量审核系统设计与实现[J];计算机应用研究;2000年05期
中国重要会议论文全文数据库 前10条
1 胡华;宋荷庆;乐嘉锦;;基于XML的多Web数据库集成[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
4 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
5 陈昊;蒋丽;刘梦赤;;面向Web的数据管理系统设计[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
6 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
7 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
10 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 聂铁铮;Deep Web中Web数据库集成关键技术的研究[D];东北大学;2009年
2 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
3 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
4 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
5 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
6 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
7 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
8 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
9 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
10 胡佳;语义Web服务自动组合及验证的研究[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
2 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
3 马丽莎;基于WEB操作平台下的办公自动化系统[D];电子科技大学;2009年
4 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
5 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年
6 温梨梨;基于零拷贝的Web服务器技术研究[D];中国海洋大学;2011年
7 焦燕廷;一种基于领域本体的语义Web服务匹配和组合方法[D];山东科技大学;2011年
8 黄亮;Web漏洞扫描系统中的智能爬虫技术研究[D];杭州电子科技大学;2012年
9 赵春娟;Web服务组合方法的研究与实现[D];天津理工大学;2011年
10 任强;基于谓词抽象与精化技术的Web服务验证研究[D];苏州大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026