收藏本站
收藏 | 论文排版

Deep Web数据集成关键技术研究

王英  
【摘要】: 随着Web信息的激增,越来越多的信息开始由静态网页存储的方式向Web服务器维护的数据库即Deep Web转移,Deep Web包含的信息为Surface Web的400-500倍,与Surface Web相比,Deep Web包含的信息具有更高的质量,同时也是Web上增长速度最快的信息载体,对Deep Web的研究已是Web搜索领域迫在眉睫的任务。 Deep Web数据集成的目的是以尽可能自动的方式实现对Web中在线数据库信息的有效利用。在面向领域的信息搜索中,相关的领域知识往往有助于改善搜索效果。本体作为最强大的网络信息语义描述工具,在信息检索中被广泛应用,因此,本文综合应用本体研究Deep Web数据集成技术,对以下四个关键技术进行了深入研究:Deep Web入口自动发现、Deep Web查询接口模式抽取、Deep Web查询接口集成和Deep Web查询接口自动填充。 本文首先构建领域核心本体,在模式匹配过程中,不断完善核心本体,实现本体的自动扩展,并通过本体描述语言OWL对目标本体进行形式化描述以帮助机器理解和推理;然后,在Deep Web入口的自动发现中,应用主题爬行技术和本体技术,构造网页分类器、表单结构分类器和表单内容分类器,实现特定领域Deep Web入口表单的自动发现;在Deep Web查询接口的模式抽取中,设计了基于网页可视化特征的Deep Web查询接口模式抽取算法,实现对查询接口属性标签和查询控件的获取与分析,并根据标签和控件的逻辑关系将其重组成语义属性;在Deep Web数据库查询接口的集成中,充分利用本体提供的语义实体间的复杂关系,捕获不同查询接口间的语义特征,实现模式匹配,在语义级别上实现对查询接口真正意义上的理解,使得同一领域中多个查询接口的知识规范化、统一化,以方便于对其进行处理;在Deep Web查询接口的自动填充中,利用领域本体建立Deep Web入口表单属性与集成查询接口属性的映射关系,将用户提交的查询计划进行合法性检查后分发至各个Deep Web数据库,经查询处理后,转化为各本地查询接口相适应的查询条件,实现用户透明的集成查询接口向各个Deep Web表单的查询分发与表单重写,最后自动触发提交查询按钮。实验表明本文所提出的方法是可行的。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘超;刘妍;;基于Deep Web数据查询接口的抽取与集成[J];硅谷;2008年23期
2 林培光;吕超;;领域Web数据库查询接口的自动发现[J];江西师范大学学报(自然科学版);2008年02期
3 王冉冉;王刚;黄青松;;基于Deep Web的信息采集系统[J];计算机技术与发展;2007年10期
4 周爱武;李玉梅;周闪闪;王宝铜;;基于返回结果的Deep Web查询接口识别[J];计算机技术与发展;2009年07期
5 王兵;王轲;;Deep Web数据源聚类与分类[J];计算机与现代化;2007年08期
6 段青玲;杨仁刚;华松青;;基于动态学习的Deep Web数据源选择算法[J];郑州大学学报(理学版);2010年01期
7 周旭;赵耀;刘海博;;Deep Web资源集成研究[J];科技信息(科学教研);2007年35期
8 董旻;方曙;;Deep Web信息抽取研究[J];图书情报工作;2007年10期
9 李石生;刘海博;赵耀;;基于DeepWeb的图书检索系统设计[J];河北大学成人教育学院学报;2008年01期
10 钟昕;伏玉琛;;书籍搜索领域Deep Web数据集成系统[J];计算机技术与发展;2008年09期
11 张玉峰;吴金红;王翠波;;面向Deep Web的动态竞争情报智能采集策略[J];情报学报;2008年04期
12 赵朋朋;高岭;崔志明;;基于查询接口特征的Deep Web数据源自动分类[J];微电子学与计算机;2006年10期
13 王鸿;余建桥;;基于N-Gram的Deep Web接口属性抽取[J];计算机与现代化;2010年12期
14 苏晓珂;赵磊;黄青松;;Deep Web中基于迭代的查询方式[J];云南民族大学学报(自然科学版);2007年01期
15 金灵芝;王小玲;朱守中;;Deep Web数据源自动分类[J];微计算机信息;2009年12期
16 郭少杰;陈雅冰;;Deep Web技术在科学数据共享平台中的应用[J];广东科技;2010年14期
17 张云坤;;基于数据集成的高校图书馆个性化信息服务研究[J];图书馆工作与研究;2010年07期
18 王彩霞;高明;;Deep Web查询接口及其识别算法[J];电脑知识与技术;2011年22期
19 李齐会;;Deep Web查询接口的判定技术研究[J];计算机与数字工程;2009年03期
20 李雪玲;施化吉;兰均;李星毅;;基于决策树和链接相似的Deep Web查询接口判定[J];计算机应用研究;2011年11期
中国重要会议论文全文数据库 前10条
1 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 王英;左万利;彭涛;赫枫龄;彭钊;;特定领域Deep Web查询接口的集成[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
4 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
5 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 姜芳艽;贾琳琳;孟小峰;;Deep Web数据集成中基于最小超集的查询转换[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 赵朋朋;高岭;崔志明;;基于查询接口特征的Deep Web数据源自动分类[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
8 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 王英;左万利;王鑫;彭涛;;Deep Web查询转换研究[A];第六届全国信息检索学术会议论文集[C];2010年
10 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国博士学位论文全文数据库 前10条
1 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
2 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
3 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
4 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
5 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
6 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
7 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
8 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
9 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
10 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 龚桂芬;基于查询接口的Deep Web模式匹配方法研究[D];苏州大学;2011年
2 刘凯;Deep Web数据集成关键技术研究[D];长春工业大学;2012年
3 韩亮;图书领域Deep Web查询接口集成研究[D];河北大学;2010年
4 蔡欣宝;Deep Web数据获取方法研究[D];苏州大学;2010年
5 陈雅冰;基于领域的Deep Web查询接口抽取[D];华南理工大学;2011年
6 李三义;基于模型匹配的Deep Web数据库分类[D];吉林大学;2010年
7 刘鸿飞;Deep Web查询接口集成及搜索策略研究[D];河北大学;2009年
8 李道申;基于本体的Deep Web数据集成方法研究[D];河南科技大学;2012年
9 陈佳佳;Deep Web数据集成研究及其在购书领域中的应用[D];暨南大学;2010年
10 罗斐;基于本体的Deep Web数据源分类和查询接口模式抽取[D];南京航空航天大学;2010年
中国重要报纸全文数据库 前10条
1 邹大斌;发挥数据的最大价值[N];计算机世界;2007年
2 于翔;谁碾碎了数据?[N];网络世界;2007年
3 ;SaaS需要数据集成[N];网络世界;2007年
4 陈友梅;数据集成 永中Office之本[N];中国计算机报;2002年
5 姜学军(山东省医药卫生科技信息研究所) 程永(浪潮商用系统公司;山东省地税系统的数据集成[N];电脑商报;2005年
6 李稚;“集成”的困惑[N];计算机世界;2002年
7 刘学纲;互联互通平台的数据集成[N];中国计算机报;2003年
8 于翔 王翔;收复数据孤岛[N];网络世界;2007年
9 李学伟;业务集成VS数据集成[N];中国企业报;2007年
10 本报记者 邹大斌;Informatica:从数据中淘金[N];计算机世界;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978