收藏本站
《南京大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

精确Web信息抽取关键技术与系统研究

施生生  
【摘要】:随着互联网技术的发展,Web成为全球企业与机构进行信息发布与应用部署的主要平台。大量Web网站和Web应用的出现使得Web上的数据量急剧增长。Web上的海量数据蕴含很多有价值的信息。为了获得并分析利用这些有价值的信息,通常首先需要从Web上获取精确有用的结构化数据,然后对这些结构化数据执行深度分析处理。然而,Web系统的广泛分布性和自治性、Web数据的异构性和非结构化特性、以及Web数据的展现结构与目标数据结构的不一致性,使得从Web中有效地获取精确有用的结构化数据成为一个较大的技术难题。Web信息抽取正是为解决这一问题而产生的研究领域。Web信息抽取研究如何从展现结构的Web页面抽取出用户感兴趣的数据,并将其转换成结构化数据。一个完整的Web信息抽取过程可以被分为三个阶段:网页浏览导航、网页数据抽取、以及网页数据集成。然而,现有大部分研究工作主要关注网页数据抽取,忽略了网页浏览导航与网页数据集成,导致缺少完整的Web信息抽取处理能力和过程。与此同时,大多数现有工作过于强调理论意义上的全自动化分析抽取处理。相应的方法主要有两种:自动网页数据抽取方法;开放式异构网页数据抽取方法。前者不考虑用户需求,会抽取出很多用户不感兴趣的冗余数据;这导致分析应用需要对数据进行转换、清洗、过滤等二次处理。后者不使用任何特定于网页的抽取规则模板,试图从描述相同实体的异构网页抽取出用户感兴趣的数据;这导致后者的数据抽取精确度通常较低。针对现有工作的上述不足,本文力图综合自动化方法以及精确Web信息抽取的实际应用需求。面向完整Web信息抽取过程,本文研究精确Web信息抽取基本模型、语言、以及关键技术方法,并给出相应的原型系统的设计与实现。具体而言,本文主要研究工作和创新点如下:(1)三阶段一体化精确Web信息抽取基本模型研究首先,研究并提出完整的三阶段一体化精确Web信息抽取模型。然后,分别针对三个阶段研究并提出网页浏览导航模型、网页数据抽取模型、以及网页数据集成模型。网页浏览导航模型通过构建交互和浏览导航动作模型、网页浏览导航路径模型、以及网页链接关系模型,以分别描述用户交互动作、网页浏览导航过程、以及网页链接关系。网页数据抽取模型通过构建网页数据抽取基本模型、网页数据记录模型、以及数据记录和数据项抽取规则模型,以分别描述网页数据抽取过程、网页数据记录结构形式、以及数据记录和数据项抽取规则框架。网页数据集成模型描述了将源网页数据转换成目标结构数据的基本过程。(2)三阶段一体化精确Web信息抽取规则体系与语言研究基于三阶段一体化精确Web信息抽取基本模型,研究并设计一种三阶段一体化的精确Web信息抽取规则体系与语言。与精确Web信息抽取过程的三阶段相对应,该规则体系与语言包含三个部分:网页浏览导航规则语言、网页数据抽取规则语言、以及网页数据集成规则语言。与现有的Web信息抽取规则语言相比,该语言的主要优点包括:1)网页浏览导航规则语言可以定义各种复杂网页浏览导航过程的网页浏览导航规则;2)网页数据抽取规则语言可以定义各种复杂结构数据记录抽取规则;3)网页数据集成规则语言可以方便灵活地定义网页数据集成规则。(3)自动网页数据抽取研究现有自动网页数据抽取方法主要适用于抽取简单结构数据记录(连续-定长-线性数据记录),而难以有效抽取复杂结构数据记录(非连续、变长、或嵌套数据记录)。针对这一不足,研究并提出两种自动网页数据抽取方法:基于内聚度和DAG(有向无环图)的自动网页数据抽取方法,以及基于确定性有穷自动机的自动网页数据抽取方法。前者适用于抽取连续-定长(变长)-线性数据记录,而后者可以抽取各种简单或复杂结构数据记录。(4)精确Web信息抽取规则生成研究为了便于用户高效生成鲁棒的精确Web信息抽取规则,研究并提出一种基于用户交互、自动网页结构分析和监督式规则学习的精确Web信息抽取规则生成方法。在网页浏览导航规则生成上,将通过自动录制用户交互和浏览导航动作来生成相应规则。在网页数据抽取规则生成上,对于包含规整数据记录的页面,将采用上述自动网页数据抽取方法分析网页结构,继而基于监督式规则学习来自动生成相应规则;对于包含非规整数据记录的网页,将基于用户交互和监督式规则学习来生成相应规则。在网页数据集成规则生成上,将采用简单的脚本语言编码方式来生成相应规则。(5)精确Web信息抽取原型系统的设计与实现为了验证所提出的模型、规则语言和关键技术方法的有效性,本文设计并实现一个精确Web信息抽取原型系统。实验结果表明,本文所研究提出的精确Web信息抽取模型与关键技术方法是有效的,比现有的技术方法取得更好的抽取精确性、并具有更强的处理能力。
【关键词】:精确Web信息抽取 浏览导航 数据集成 数据记录 数据项
【学位授予单位】:南京大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP391.1;TP393.09
【目录】:
  • 摘要4-6
  • ABSTRACT6-18
  • 第一章 绪论18-33
  • 1.1 研究背景18-22
  • 1.1.1 Web信息抽取技术概述18-20
  • 1.1.2 精确Web信息抽取的基本处理过程与主要问题20-21
  • 1.1.3 Web信息抽取的主要技术方法21-22
  • 1.2 相关工作22-29
  • 1.2.1 基于自动化程度的方法分类24-27
  • 1.2.2 基于信息抽取层次的方法分类27
  • 1.2.3 基于数据记录类型的方法分类27-28
  • 1.2.4 基于Web信息抽取处理阶段的方法分类28-29
  • 1.3 现有方法的主要不足29-30
  • 1.4 本文主要工作与创新点30-32
  • 1.4.1 本文主要研究工作30-31
  • 1.4.2 本文主要贡献和创新点31-32
  • 1.5 本文组织结构32-33
  • 第二章 精确Web信息抽取基本模型研究33-45
  • 2.1 Web网页的基本组成和网页表示33-35
  • 2.2 三阶段一体化精确Web信息抽取基本过程与模型35
  • 2.3 自动化网页浏览导航模型35-38
  • 2.3.1 用户交互和浏览导航动作模型36-37
  • 2.3.2 网页浏览导航路径模型37
  • 2.3.3 网页链接关系模型37-38
  • 2.4 精确网页数据抽取模型38-43
  • 2.4.1 网页数据抽取基本模型38-39
  • 2.4.2 网页数据记录模型39-42
  • 2.4.3 网页数据抽取处理过程42
  • 2.4.4 数据记录与数据项抽取规则模型42-43
  • 2.5 网页数据集成模型43-44
  • 2.6 本章小结44-45
  • 第三章 精确Web信息抽取规则体系与语言45-76
  • 3.1 问题背景与基本思路45-50
  • 3.1.1 基本问题与研究现状45-47
  • 3.1.2 基本思路47-49
  • 3.1.3 本章组织结构49-50
  • 3.2 精确Web信息抽取规则体系与页面模型50-51
  • 3.3 精确Web信息抽取规则语言的设计51-71
  • 3.3.1 网页浏览导航规则语言55-58
  • 3.3.2 网页数据抽取规则语言58-68
  • 3.3.3 网页数据集成规则语言68-71
  • 3.4 精确Web信息抽取规则语言完整应用示例71-75
  • 3.5 本章小结75-76
  • 第四章 基于内聚度和DAG的自动网页数据抽取方法76-110
  • 4.1 问题背景与基本方法76-84
  • 4.1.1 基本问题与研究现状76-82
  • 4.1.2 基本方法及其思路82-83
  • 4.1.3 数据记录抽取示例83-84
  • 4.1.4 本章组织结构84
  • 4.2 数据记录分析基础技术方法84-88
  • 4.2.1 节点相似度计算84-86
  • 4.2.2 相似节点聚类86-87
  • 4.2.3 数据块相似度计算与相似数据块聚类87
  • 4.2.4 内聚度计算87-88
  • 4.3 基于内聚度的自动数据记录识别方法88-103
  • 4.3.1 基本思想与基本算法88-90
  • 4.3.2 基于内聚度的相似连续数据块识别90-94
  • 4.3.3 基于分隔符的相似连续数据块识别94-99
  • 4.3.4 基于次序的相似连续数据块识别99-102
  • 4.3.5 基于首节点的相似连续数据块识别102-103
  • 4.4 基于DAG的数据项识别与对齐103-108
  • 4.4.1 基本方法与思路103-105
  • 4.4.2 两两节点序列对齐105-106
  • 4.4.3 基于DAG的全局节点对齐106-108
  • 4.4.4 数据项识别与对齐108
  • 4.5 本章小结108-110
  • 第五章 基于确定性有穷自动机的自动网页数据抽取方法110-150
  • 5.1 问题背景与基本方法110-114
  • 5.1.1 基本方法及其思路110-112
  • 5.1.2 基于DFA的数据抽取示例112-114
  • 5.1.3 本章组织结构114
  • 5.2 基于DFA的相似连续数据块识别114-139
  • 5.2.1 基于DFA的树模式推导115-131
  • 5.2.2 基于树模式的相似连续数据块识别方法131-139
  • 5.3 基于结构与视觉特征的相似非连续数据块识别方法139-143
  • 5.3.1 可重组二维表的识别与重组方法140-142
  • 5.3.2 相似非连续数据块识别算法142-143
  • 5.4 数据记录识别以及数据项识别与对齐143-145
  • 5.5 实验145-149
  • 5.5.1 数据记录抽取实验145-147
  • 5.5.2 数据项抽取实验147-149
  • 5.6 本章小结149-150
  • 第六章 精确Web信息抽取规则生成方法150-189
  • 6.1 问题背景与基本方法150-153
  • 6.1.1 基本问题与研究现状150-151
  • 6.1.2 基本方法及其思路151-152
  • 6.1.3 本章组织结构152-153
  • 6.2 基于决策树的XPath学习方法153-160
  • 6.2.1 基本思想方法153-155
  • 6.2.2 决策二维表的定义155-158
  • 6.2.3 基于特征的谓词生成方法158-160
  • 6.3 基于交互的半自动网页浏览导航规则生成方法160-166
  • 6.3.1 节点元素的生成161-162
  • 6.3.2 节点元素的生成162-163
  • 6.3.3 浏览导航规则生成示例163-166
  • 6.4 网页数据抽取规则自动生成方法166-183
  • 6.4.1 基于自动化结构分析的数据抽取规则生成方法168-181
  • 6.4.2 基于交互的半自动数据抽取规则生成181-183
  • 6.5 网页数据集成规则生成方法183-185
  • 6.5.1 网页数据集成规则设计183
  • 6.5.2 多网页数据记录关系维护183-184
  • 6.5.3 流程控制规则184-185
  • 6.6 实验185-187
  • 6.6.1 数据记录抽取实验185-186
  • 6.6.2 数据项抽取实验186-187
  • 6.7 本章小结187-189
  • 第七章 精确Web信息抽取系统的设计与实现189-203
  • 7.1 系统总体设计框架与思路189-190
  • 7.2 系统功能设计190-191
  • 7.3 系统实现191-202
  • 7.3.1 系统组成模块191-192
  • 7.3.2 系统界面设计192-193
  • 7.3.3 系统模块设计193-202
  • 7.4 本章小结202-203
  • 第八章 总结与展望203-206
  • 8.1 总结203-205
  • 8.2 进一步工作展望205-206
  • 参考文献206-212
  • 致谢212-214
  • 攻读博士期间参与的科研项目214
  • 攻读博士期间发表的文章列表214
  • 攻读博士期间申请的专利214-215
  • 攻读博士期间登记的软件著作权215-216

中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026