基于Web信息提取的企业竞争情报获取研究
【摘要】:随着互联网的迅速发展和普及,网络已成为人们生活中不可缺少的一部分。网络中存在着各式各样的信息,这些信息以网页为载体,呈现在用户面前。网页中蕴含的丰富信息为企业竞争情报系统提供了新的情报信息来源。本论文的目的就是研究一种通用的企业竞争情报获取方式。在研究现有的Web信息提取技术的基础上,本文提出了基于DOM树和DBSCAN算法的Web信息提取算法,接着研究并构建了基于Web信息提取的企业竞争情报获取模型。首先,本论文全面系统的阐述了Web信息提取和企业竞争情报的研究现状,介绍了企业竞争情报系统和企业竞争情报获取的理论基础,并依次介绍了本论文将使用的几种网页数据处理技术,包括网络爬虫技术、Jsoup网页解析技术、DOM和DBSCAN算法。接下来详细介绍了Web信息提取的基本概念、技术分类和评价标准。其次,本论文针对互联网中网页结构多样、易变等因素,通过研究网页结构中存在的一般规律,并结合DOM树和DBSCAN聚类算法提出了新的Web信息提取算法。并详细介绍了算法中的几个环节,包括Web页面预处理、构建DOM树及分段文本内容获取、基于DBSCAN算法的网页内容提取。最后通过实验证明该算法能有效地获取网页中的正文文本信息,不依赖于网页结构,具有较强的通用性。最后,针对某一行业内的企业,基于网络爬虫技术、网页解析技术和Web信息提取算法构建企业竞争情报获取模型。该模型首先根据预留的网站网址,通过网络爬虫获取该网址下的所有链接。然后通过网页标题来判断网页是否与行业领域相关,初步筛选网页。对筛选后的网页进行网页主要内容获取,即获取该网页的正文文本信息。再根据预留的企业关注信息,提取网页正文文本中的企业竞争情报信息。最后基于该模型设计并实现了企业竞争情报获取原型系统,通过实验验证基于Web信息提取的企业竞争情报获取模型的正确性。