基于主题和结构的XML网页的数据抽取
【摘要】:近年来互联网正强有力的改变着世界。信息革命不仅极大地改变了人们的生活方式,而且带来了巨大的社会变革。互联网成了一个巨大的信息源,如何在庞杂的数据中准确地抽取出用户想要的信息成为一个非常重要的课题。
随着Web的应用越来越广泛和深入,人们渐渐觉得HTML始终无法满足不断增长的需求,所以制订出了一种新的Web标记语言:XML。随着XML技术的不断发展,Web上出现了一些XML网页。本文针对XML网页,提出了一种基于树结构的Web数据抽取方法。
本文重点研究如何从同一主题的XML网页中抽取出该类主题网页的一般模式,核心技术是通过解析XML文档,按用户主题对解析后的样本XML文档进行模式抽取以及按照模式信息对目标XML文档进行数据抽取。在这里,模式信息实际上就是根据样本文档中符合用户主题的语义块,得到样本页包含相关信息的结构模式,样本页中的所有用户兴趣区域构成一组语义块,通过对语义块的比较和归纳学习,得到我们所需的该类主题的模式信息。然后根据得到的规则,从目标XML文档中寻找与之匹配的信息,抽取出来提交给用户。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|