收藏本站
《吉林大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于本体演化的Deep Web数据抽取与注释

陈珂锐  
【摘要】:根据Web的信息存放和分布状况等特征可将Web划分成“表层网络”(Surface Web)和“深度网络”(Deep Web)两大类。Surface Web指的是使用超链接的方法将图片、文件等资源连接起,并通过点击这些超链接来读取的网页。不同于表层网络,Deep Web的信息都存储在后台数据库,仅提供给用户一个查询接口,通过用户提交的查询条件,自动生成包含查询结果记录的网页。 传统的搜索引擎主要是依靠超链接进行爬取,因此是无法检索到Deep Web站点包含的丰富信息。同时,抽取和集成Deep Web站点中的信息可运用于多种应用,例如为多个电子商务网站提供产品信息的比价购物服务,便于商家了解行情,并且实惠于消费者。有利于互联网中的门户网站提供更加专业和个性化的信息搜索服务。因此,对于Deep Web站点的资源进行数据抽取和集成,不仅可以产生可观的经济效益,而且可以提高传统搜索引擎的查全率和查准率。 本体可看作一种特殊类型的共享词典,具有自定义的结构化的特征,适用于计算机系统中描述特定领域之中概念以及概念之间的关系,使用本体进行数据抽取和注释可以摆脱传统方法对于网页结构本身的依赖,因此,本文提出了一种基于本体演化的数据抽取和数据注释方法。 本文具体的研究工作主要在四个方面: (1)根据Deep Web查询结果页面的数据的结构化特征,本文设计了一个较简单的七元组本体属性模型,可以很好的描述领域本体中的属性以及属性关系。 在构造本体中不仅考虑了查询接口的信息,而且还加入了查询结果中的实例信息,从而可构造出更加丰富的本体。本体中的属性信息是查询接口页面中的查询属性和查询结果页面中的实例信息的合集。 (2)对于查询结果页面的数据抽取操作分为数据记录区域的识别、数据记录分割、数据记录的对齐三个阶段。 基于“网页中包含有多个数据记录,通常包含有大量本体信息的数据记录可能是包含查询结果记录的数据区域”这一观察,本文提出了最大相关度子树算法用于识别查询结果数据区域,同时基于多个网页的视觉观察,设计了一系列的启发式规则用于数据的分割处理。 采用了部分树对齐算法来对齐同一数据源中产生的多个数据记录。该算法的主要思想是构造一棵递增的种子树来对齐多棵树。我们可以把一条数据记录看作一棵子树,一个数据记录区域包含几个数据记录,将具有几棵子树,最终构造出包含结点数目最多的种子树,该种子树可对齐同一数据源中的所有子树。 (3)对于查询结果页面中的数据注释操作,首先研究了重复数据记录识别的算法,从而避免不必要的注释操作,该方法综合了基于距离函数方法和基于机器学习方法的优点。 由于本体具有较好的语义信息,因此,本文提出用本体对抽取出的数据进行注释。对于数据抽取出的标签-值对的实例信息,按照标签项可分为了两种情况处理: 当标签项不为空时,对本体和标签-值对进行映射,并为该实例标注一个合适的标签; 当标签项为空时,基于“在Deep Web查询接口中,选取越合理的查询条件,Deep Web后台服务器将会返回尽可能多的查询结果信息。”这一观察,本文提出“查询条件重置”的方法,利用Deep Web查询结果返回的数据记录的个数来判断如何注释该实例。同时,提出了基于KBFS的K-beam搜索算法用于数据实例的注释预测,该方法不仅具有基于最大信息熵模型的预测模型的预测能力,而且还具有KBFS搜索算法探寻最优路径的优点。 (4)为了避免静态本体的知识表达有限性,本文提出了一种动态演化的本体用于数据抽取和注释。将演化过程分为:捕捉变化信息、变化信息的表示、语义的变化、本体演变的执行这四个阶段,并且制定了本体进行演化的三个基本规则,从而保证演化后的本体具有更丰富的信息,同时不存在语义冲突的问题。 本文虽然对Deep Web网页数据的抽取和注释进行了深入的研究,但其中某些关键技术仍然不是很成熟,还有一些后续的工作需要做,例如创建一个本体演化的性能评估标准,从而避免本体信息的过度膨胀。因此,我们还有许多工作需要进一步的改善和创新。
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 薛亮;冯博琴;管涛;;网络跨库检索中基于Ontology的数据抽取与合并[J];小型微型计算机系统;2005年10期
2 赵方;;数据仓库技术及实施[J];电脑知识与技术(学术交流);2006年17期
3 贺安坤;苏平;姜红花;;银行CRM系统数据抽取的研究[J];计算机应用与软件;2008年03期
4 孙伟舰;王于丁;贾丽;张晓芳;;基于Web Service的数据抽取研究与设计[J];现代电子技术;2008年08期
5 王红卫;马红;张素智;赵宇;;基于预定义模式的Web网页结构化数据抽取[J];郑州轻工业学院学报(自然科学版);2008年06期
6 宋娜娜;;基于上下文无关文法的数据抽取规则[J];河南城建学院学报;2010年05期
7 顾春辉;;数据仓库技术在公共交通领域中的应用[J];城市公用事业;2011年01期
8 熊丽荣,蔡家楣,郑河荣,郭行波;移动网管平台中数据仓库数据抽取、净化和集成[J];计算机应用研究;2002年04期
9 周亚宁;电信经营分析系统中抽取转换子系统的设计与实现[J];内蒙古大学学报(自然科学版);2004年06期
10 左爱群;杜波;;数据仓库技术研究及其在银行的应用[J];武汉工业学院学报;2006年01期
中国重要会议论文全文数据库 前10条
1 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
2 蒋理成;;增量数据抽取(ETL)技术[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
3 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
5 陆忠良;苏厚勤;;基于Oracle/Linux环境数据抽取技术的研究与实践[A];第四届中国软件工程大会论文集[C];2007年
6 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
7 王英;左万利;王鑫;彭涛;;Deep Web查询转换研究[A];第六届全国信息检索学术会议论文集[C];2010年
8 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
9 王英;左万利;彭涛;赫枫龄;彭钊;;应用领域本体知识库自动填充Deep Web入口表单[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
10 朱命冬;申德荣;寇月;聂铁铮;于戈;;一种应用于Deep Web环境下的重复记录识别模型[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国重要报纸全文数据库 前10条
1 广东省电信公司科学技术研究院 汪虹;数据抽取: 复杂电信数据的统一路[N];计算机世界;2002年
2 涂凯;数据淘金 妙在分分合合[N];中国计算机报;2003年
3 ;Informix实现商务智能的坚实根基[N];中国计算机报;2000年
4 中青旅尚洋电子技术有限公司 史小六 陈如璇;细看集中技术[N];网络世界;2003年
5 黄平;如何提升数据仓库的数据质量[N];计算机世界;2005年
6 北京市燃气集团有限责任公司 供稿;北京燃气管网尽在掌握[N];计算机世界;2008年
7 NCR Teradata数据仓库事业部 王闯舟;基于Teradata的BI应用[N];网络世界;2004年
8 ;中创软件电力信息整合方案[N];计算机世界;2006年
9 ;金融电子化寻找“软”动力[N];中国计算机报;2001年
10 中国系统分析员协会 专业顾问 张振华 中国建设银行浙江省分行 熊晓南;让“脏数据”改头换面[N];网络世界;2006年
中国博士学位论文全文数据库 前10条
1 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
2 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
3 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
4 赵朋朋;Deep Web信息集成若干关键技术研究[D];苏州大学;2008年
5 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
6 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
7 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
8 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
9 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
10 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 齐鹏;基于结果模式的Deep Web数据抽取机制的研究[D];东北大学;2008年
2 尹强文;面向deep web的数据抽取与结果聚合技术研究[D];哈尔滨工程大学;2012年
3 刘为;Deep Web环境下数据抽取及模式识别的研究[D];东北大学;2008年
4 魏勇刚;Deep Web数据抽取及语义标注研究[D];河北大学;2009年
5 高亚;Deep Web数据集成系统中数据抽取与语义标注研究[D];河北大学;2010年
6 杨舟;特定领域的Deep Web数据抽取与语义标注研究[D];苏州大学;2011年
7 李秀兰;基于结果模式的Deep Web语义标注研究[D];兰州理工大学;2011年
8 邓烨;面向特定领域的Deep Web数据自动抽取[D];中国海洋大学;2012年
9 曹瑾;航空发动机设计中共享数据库及数据抽取模式的探索开发[D];电子科技大学;2008年
10 李道申;基于本体的Deep Web数据集成方法研究[D];河南科技大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026