企业级搜索引擎的优化设计与实现
【摘要】:
在信息化飞速发展的今天,无论是企业、政府、学校等组织内部还是外部都存在着多种信息源。互联网上的信息量巨大,而组织内部存在的知识文档数量也正呈爆炸性趋势增长。在这种状况下,如何能在组织内更快、更准确的搜寻自己需要的信息具有现实的意义。研究和实现企业级搜索引擎优化和提取技术,将使得各个组织能从有限的资源里面搜集到更多的信息,从而实现对企业内外部数据的高效获取和有效组织。
本文在面向校园网的企业级检索系统的基础上,进一步强化功能设计,为用户提供更好的用户体验和访问效率,提高检索效果。论文完成的主要工作包括:
1、在页面抓取阶段,系统加入抓取步骤的容错机制,使系统在抓取阶段意外出现错误的时候,可以进行步骤之间的回滚,实现自动更新;
2、使用异步传输消息方式,将后台检索逻辑与前台显示逻辑分块,避免因为聚类计算较长,返回结果较慢而造成用户等待时间过长,将返回较快的结果先呈现予用户,并通过改变分析器的中文检索逻辑,改善中文检索效果,增强用户体验。
3、通过信息提取,为系统加入图片摘要、页面发布时间统计图的功能,在页面分析阶段,结合页面分块、页面分类等规则,从含有图片的页面中,提取相关的图片作为该页面的描述,并提取页面发布时间,整合成为页面发布时间统计图,使用户能够更快、更准确地定位自己需要的资源。
论文对实现的系统进行了展示,并对系统信息提取模块作了较为详细的实验测试与结果分析。