基于XML的WEB信息抽取系统研究与实现
【摘要】:随着计算机科学技术与互联网的不断发展,在我们的工作和生活中web已变得必不可少。web上信息资源呈几何级数量增长,web已经成为一个巨大的信息资源库,要想准确有效地获取一条想要的信息变得越来越难,如何从web信息资源库中抽取出有用的信息已经成为众多科研工作者研究的课题,web信息抽取技术应运而生。
本文在研究现有的web信息抽取技术基础上,结合标准的XML技术,提出了基于XML的web信息抽取技术。本文主要工作有以下几点:
1.在研究前人技术成果基础之上,对现有信息抽取技术加以整合和扩展,设计了基于XML的Web信息抽取系统框架模型。
2.研究了信息抽取关键技术,阐述了信息抽取工作流程,设计了抽取规则和抽取配置文件的生成方法。最终,实现了Web信息抽取系统的主要功能。
3.本文对抽取结果进行分类,采用了朴素贝叶斯理论,设计了一个中文Web文本分类系统模型,该模型隶属于整个信息抽取系统框架模型。
4.系统抽取结果是XML数据文档类型,在分析当前数据库存储技术基础上,探讨了将抽取结果经分类后存储到数据库的不同方法。
本文设计的基于XML的Web信息抽取系统能够较好的解决web信息抽取问题,实验结果表明,该系统具有较高的召回率和准确率。