汽车行业垂直搜索系统原型的设计与关键模块的实现
【摘要】:
随着互联网技术应用范围的不断扩大,人们越来越多地关注如何快速有效地从海量的网络信息中抽取出潜在的、有价值的信息,使之在管理和决策中有效地发挥作用。搜索引擎技术解决了用户信息检索的困难,但目前的通用搜索引擎存在着信息重复率高、检索功能单一等缺点。所以作为通用搜索引擎的补充,垂直搜索引擎更能做到符合用户个性化的需求。本文的目的便是构建一个较之通用搜索更为人性化,专业性更强的垂直搜索系统。
本论文对垂直搜索引擎进行了理论性的分析,介绍了垂直搜索系统涉及到的术语和关键技术,具体介绍了网络蜘蛛的运行规则设计,信息抽取技术以及垂直搜索网站的相关页面设计。针对中文信息抽取的难点:即中文语料词表和中文命名实体识别,提出了解决方案;针对汽车领域收集制作了GATE格式的语料词表;并针对中文的语言特点撰写了JAPE规则来实现中文命名实体识别。最后是系统的设计部分,在上述理论分析的基础上提出了系统的设计思想,并介绍了系统的结构和具体技术。
最后本文结合理论和实践,在探讨了网络信息检索技术及中文信息抽取技术在搜索引擎系统中的应用,并在研究了Nutch搜索内核以及信息抽取系统Gate的基础上,设计了一种新的垂直搜索系统——汽车行业垂直搜索网站系统的框架原型。其中详细研究了系统构成中信息抓取、信息中文抽取和信息检索功能的实现过程。本系统设计的目标为:专注汽车行业领域的搜索,只提供用户关注的信息,将重复转载的信息去除,并对信息进行分类,帮助用户快捷查询到所需的资讯,实现对汽车领域信息的垂直搜索。