基于网页内容分析的Web信息抽取技术及其应用
【摘要】:
随着计算机网络的发展和信息化社会的到来,搜索引擎正在发挥着日益重要的作用。通用搜索引擎以其方便、快捷、索引信息量大等特点而为人们所熟知,但使用它们检索特定领域的信息,或它们在面向特定领域的应用时,往往检索得到的信息准确性和专指性不强。因此,开发针对某一专题或应用的搜索引擎有实用价值和现实意义。在专题搜索引擎的开发中,用于爬取相关网页的网络蜘蛛的设计与实现对搜索引擎的整体性能有较大影响。
自1999年以来,我国高校招生规模逐年扩大,学生人数的大幅度增加,给高校学生的培养及就业带来了诸多压力。因此,运用科学的方法对在校学生教育信息和毕业生就业信息实施管理显得尤为重要,更重要的是,可以更好地对高校的招生和培养工作给予辅助指导。基于上述需求,本课题对以大学生就业信息及教育信息为主题的专用搜索引擎中的网络蜘蛛程序进行了设计与实现。在网页抓取过程中根据一定的规则分析页面内容,完成相关信息的抽取和分析,过滤与主题无关的内容,并将其存储到网页库中,进而完成搜索引擎中的数据准备工作,为后续处理奠定基础。本论文叙述了网络蜘蛛的实现过程,给出了系统架构,并通过将本文所述算法与其他的开源网络蜘蛛抓取网页的性能对比,分析了相应的性能。该算法能比较准确地抽取到相关网页的内容,同时,本文亦对其可能存在的不足进行了说明。