收藏本站
《南开大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web查询接口及查询结果抽取研究

张慧斌  
【摘要】:随着互联网的迅速发展,Web中出现了大量可访问的在线数据库,其中蕴含着丰富的信息,称为Deep Web信息。由于包含这些信息的页面是Deep Web网站根据用户在查询接口上提交查询动态生成的,因此传统搜索引擎无法索引这些页面。为了使用户能高效快捷的访问Deep Web信息,Deep Web数据集成成为目前信息检索领域一个亟待解决的问题,是目前研究的热点。 Deep Web查询接口的理解是Deep Web数据集成中的一个关键问题,本文在深入分析Deep Web数据集成研究现状的基础上,对Deep Web查询接口相关的若干关键技术进行了深入的研究,包括Deep Web查询接口领域模型的提出,Deep Web查询接口的发现、模式抽取和基于查询实例的查询结果抽取与标注等内容。具体的创新和贡献如下: 提出了Deep Web查询接口领域模型Domain Model。在对Deep Web查询接口研究的基础上,提出了领域模型,它包含了同一领域中所有查询接口的模式信息。从理论上分析了领域模型构建的可行性,并给出了构建方法和存储方案。分析了领域模型在Deep Web数据集成框架中的作用,基于领域模型为Deep Web数据集成中的若干问题提出了新的解决方法,为突破集成框架的整体性能瓶颈提供了可能。 提出了一种Deep Web查询接口发现方法PostClassifier。该方法通过对接口进行查询提交,根据返回结果页面特征判定接口类型,属于Post-Query方法。PostClassifier首先借助Pre-Query方法生成的规则对接口进行预判,减少Post-Query带来的查询代价。根据查询接口领域模型对接口进行领域分类,使用领域模型提供的属性值对接口属性进行填写以保证查询的有效性。根据各种接口的查询结果页面特征,PostClassifier给出了判定查询接口类型的依据。 提出了一种查询接口模式抽取方法,该方法第一次分别处理查询接口中的标签和控件。提出了根据领域模型生成接口标签树的方法,为接口中的每个标签在领域模型中找到对应节点,需要处理标签重复和标签失效等问题。提出了控件和标签的匹配方法,将接口中控件和标签的匹配转化为控件和领域模型中标签对应节点间的匹配,因此可以使用更多的信息,提高了标签和控件匹配的正确率。对于失效标签,若它与某个控件相匹配,通过最后的结果合并仍然可以得到正确的处理。实验结果表明该方法能有效的抽取查询接口的模式信息。 提出了查询结果抽取与标注方法EaSd。EaSd采用VIPS页面分块方法表示结果页面,更接近人类对Web页面的认知,有利于后续的抽取与标注工作。EaSd根据查询关键字会出现在查询结果记录中这一性质进行记录节点发现,并根据多个记录节点发现结果记录块。EaSd对结果记录的数据单元进行数据对齐,进而发现它们的共同模式和特征,利于标注。使用本地接口和领域模型共同进行标注,解决了本地接口属性不全和标注不一致问题,同时使用多种标注方法进行标注,提高了标注的召回率和准确率。实验结果表明了EaSd能很好的抽取结果记录,并能正确地标注大部分属性。
【学位授予单位】:南开大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP393.09

【引证文献】
中国期刊全文数据库 前3条
1 石龙;强保华;何倩;吴春明;谌超;;基于DOM的Deep Web查询接口属性抽取方法[J];桂林电子科技大学学报;2012年06期
2 冯永;张洋;;结合匹配度和语义相似度的Deep Web查询接口模式匹配[J];计算机应用;2012年06期
3 赵海霞;李道申;刘勇;赵嘉诚;;一种Deep Web查询结果的实体抽取方法[J];计算机工程与应用;2012年36期
中国硕士学位论文全文数据库 前3条
1 张春丽;Deep Web集成查询系统预处理关键技术研究[D];大连海事大学;2012年
2 赵琳;Web数据库特征表示和抽取方法的研究[D];山东财经大学;2012年
3 李道申;基于本体的Deep Web数据集成方法研究[D];河南科技大学;2012年
【参考文献】
中国期刊全文数据库 前3条
1 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
2 袁柳;李战怀;陈世亮;;基于本体的Deep Web数据标注[J];软件学报;2008年02期
3 ;Extracting Result Schema Based on Query Instances in the Deep Web[J];Wuhan University Journal of Natural Sciences;2007年05期
【共引文献】
中国期刊全文数据库 前10条
1 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
2 赵靖;王侨文;管马周;单传佳;;自动提取布局结构相似网页的结构化信息[J];安徽科技学院学报;2010年06期
3 陶磊;莫倩;;基于CSS选择器的深网结果页抽取方法[J];北京工商大学学报(自然科学版);2009年02期
4 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
5 马安香;高克宁;张晓红;张斌;;基于CPN网络的Deep Web数据语义标注[J];东北大学学报(自然科学版);2009年06期
6 李颖;刘国华;佟冰;刘顺江;;基于素数的多源模式匹配方法的研究[J];燕山大学学报;2009年02期
7 王彩霞;高明;;Deep Web查询接口及其识别算法[J];电脑知识与技术;2011年22期
8 蒋莘;;基于知网的论文按需检索系统[J];电脑知识与技术;2012年02期
9 赵昊;卫刚;赵晓东;;基于主题Deep Web数据挖掘的研究与探索[J];电脑知识与技术;2012年16期
10 张志平;张云坤;李文骏;;Deep web在个性化信息服务中的应用[J];电子商务;2010年08期
中国重要会议论文全文数据库 前10条
1 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
2 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
3 ;Organizing Structured Deep Web Sources with Semantic Inference[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
4 ;Structured Web Review Extraction and Opinion Summarization[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
5 王宇;方滨兴;吴博;宋林海;郭岩;;结合属性分布特征的模式匹配算法[A];第五届全国信息检索学术会议论文集[C];2009年
6 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 李鹏;朱青;任安建;胡伟;杜小勇;;支持短语识别的关系数据库关键词查询算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
8 王英;左万利;彭涛;赫枫龄;彭钊;;特定领域Deep Web查询接口的集成[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
9 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
3 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
4 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
5 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
6 张卓;基于形式概念分析的Web数据库抽取研究[D];武汉大学;2011年
7 王颜新;非常规突发事件情境重构模型研究[D];哈尔滨工业大学;2011年
8 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
9 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
10 孟祥福;Web数据库柔性查询关键技术研究[D];东北大学;2010年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 商翠珍;数据资源汇聚的可视化建模技术研究与应用[D];山东科技大学;2010年
4 朱静;数据资源汇聚中嵌套表格模型的研究与应用[D];山东科技大学;2010年
5 夏怀楠;支持跨域数据汇聚的关系数据访问服务研究[D];山东科技大学;2010年
6 刘富江;网络数据源模式识别方法及策略研究[D];哈尔滨工程大学;2010年
7 周建斌;基于J2EE Web应用的科学数据共享平台的研究与实现[D];华南理工大学;2010年
8 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
9 彭媛媛;Deep Web数据清洗方法研究及应用[D];长春工业大学;2010年
10 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 陈悦;陈运;杨义先;胡迪;;基于遗传算法的聚焦爬虫搜索策略设计与研究[J];成都信息工程学院学报;2011年05期
2 谭骏珊;陈可钦;;聚焦爬行中网页爬行算法的改进[J];电脑知识与技术;2008年35期
3 王彩霞;高明;;Deep Web查询接口及其识别算法[J];电脑知识与技术;2011年22期
4 马安香;张斌;高克宁;齐鹏;张引;;基于结果模式的Deep Web数据抽取[J];计算机研究与发展;2009年02期
5 寇月;李冬;申德荣;于戈;聂铁铮;;D-EEM:一种基于DOM树的Deep Web实体抽取机制[J];计算机研究与发展;2010年05期
6 田建伟;李石君;;基于层次树模型的Deep Web数据提取方法[J];计算机研究与发展;2011年01期
7 宋晖,张岭,叶允明,马范援;基于标记树对象抽取技术的Hidden Web获取研究[J];计算机工程与应用;2002年23期
8 杨晓琴;鞠时光;曹庆皇;王秀红;;基于包装器的Deep Web自动语义标注[J];计算机工程;2010年12期
9 龚桂芬;伏玉琛;程远虎;;基于布尔矩阵的Deep Web复杂模式匹配[J];计算机工程;2011年12期
10 伊卫国,卫金茂,王名扬;挖掘有效的关联规则[J];计算机工程与科学;2005年07期
中国博士学位论文全文数据库 前4条
1 周子力;基于WordNet的本体构建及其在安全领域应用关键技术研究[D];华东师范大学;2009年
2 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
3 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
4 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 潘高源;Deep Web查询结果抽取技术的研究[D];吉林大学;2011年
2 王晴;Web自动化测试研究与Watir框架开发[D];武汉理工大学;2011年
3 王鸿;Deep web中基于领域知识的接口集成[D];西南大学;2011年
4 仲华;Deep Web模式获取技术研究与应用[D];苏州大学;2007年
5 钟昕;Deep Web模式匹配技术研究[D];苏州大学;2008年
6 袁靓;Deep Web信息集成关键技术的研究[D];中南大学;2008年
7 张云冬;特定领域的Deep Web查询集成及结果抽取[D];复旦大学;2008年
8 曲杰涛;基于DOM的智能网页信息抽取技术研究[D];中国海洋大学;2009年
9 谢莹;Deep Web查询结果抽取及注释[D];吉林大学;2010年
10 吕越烽;基于本体的Deep Web模式匹配技术研究[D];苏州大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 刘超;刘妍;;基于Deep Web数据查询接口的抽取与集成[J];硅谷;2008年23期
2 林培光;吕超;;领域Web数据库查询接口的自动发现[J];江西师范大学学报(自然科学版);2008年02期
3 王兵;王轲;;Deep Web数据源聚类与分类[J];计算机与现代化;2007年08期
4 王冉冉;王刚;黄青松;;基于Deep Web的信息采集系统[J];计算机技术与发展;2007年10期
5 周爱武;李玉梅;周闪闪;王宝铜;;基于返回结果的Deep Web查询接口识别[J];计算机技术与发展;2009年07期
6 段青玲;杨仁刚;华松青;;基于动态学习的Deep Web数据源选择算法[J];郑州大学学报(理学版);2010年01期
7 周旭;赵耀;刘海博;;Deep Web资源集成研究[J];科技信息(科学教研);2007年35期
8 董旻;方曙;;Deep Web信息抽取研究[J];图书情报工作;2007年10期
9 李石生;刘海博;赵耀;;基于DeepWeb的图书检索系统设计[J];河北大学成人教育学院学报;2008年01期
10 钟昕;伏玉琛;;书籍搜索领域Deep Web数据集成系统[J];计算机技术与发展;2008年09期
中国重要会议论文全文数据库 前10条
1 王英;左万利;彭涛;赫枫龄;彭钊;;特定领域Deep Web查询接口的集成[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 王铎;李文辉;公正;江琦;;深层网查询接口的自动集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
5 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
6 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
7 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
8 王英;左万利;王鑫;彭涛;;Deep Web查询转换研究[A];第六届全国信息检索学术会议论文集[C];2010年
9 方巍;胡鹏昱;赵朋朋;崔志明;;基于语义的Deep Web数据源自动发现技术[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
10 李昭原;刘瑞;陈微;;开放—分布—异构多数据库互连查询接口的基本框架[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年
中国重要报纸全文数据库 前10条
1 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
2 ;中科软保险综合业务系统解决方案[N];电脑商报;2006年
3 国防科学技术大学 毛新军常志明;个人助手Agent的研究与应用[N];计算机世界;2007年
4 高雪娟;交通共用信息平台 怎样抢“摊”如何登“路”[N];中国计算机报;2004年
5 李怀今;政府资助资金实现实时监管[N];深圳商报;2008年
6 ;如何建立Web服务[N];计算机世界;2006年
7 左春;行业软件开发要靠“抄”[N];计算机世界;2006年
8 彭谦;“组装”寿险应用[N];计算机世界;2006年
9 侯闯;业务层复用:软件复用的必然趋势[N];计算机世界;2006年
10 ;Oracle iStore/iMarketing(之二)[N];计算机世界;2001年
中国博士学位论文全文数据库 前10条
1 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
2 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
3 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
4 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
5 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
6 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
7 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
8 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
9 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
10 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 贺迅;Deep Web查询接口发现与特征提取技术研究[D];重庆大学;2012年
2 陈雅冰;基于领域的Deep Web查询接口抽取[D];华南理工大学;2011年
3 杨柳;Deep Web查询接口识别与抽取技术研究[D];西安电子科技大学;2011年
4 韩亮;图书领域Deep Web查询接口集成研究[D];河北大学;2010年
5 朱会峰;Deep Web查询接口模式抽取研究[D];吉林大学;2011年
6 刘鸿飞;Deep Web查询接口集成及搜索策略研究[D];河北大学;2009年
7 龚桂芬;基于查询接口的Deep Web模式匹配方法研究[D];苏州大学;2011年
8 罗斐;基于本体的Deep Web数据源分类和查询接口模式抽取[D];南京航空航天大学;2010年
9 杜鑫;Deep Web数据源发现与采样研究[D];山东大学;2011年
10 岳亮;Deep Web接口集成及查询结果排序方法研究[D];苏州大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026