分布式教育网信息检索系统的研究和实现
【摘要】:
随着下一代网络的快速发展,Web2.0等新一代信息技术的成熟,信息资源的分布和呈现越来越分布化,这为搜索引擎的体系结构设计提出了更多新的挑战。互联网的通用搜索引擎如Google、Yahoo或Baidu等主要解决了新闻、网页等通用信息的查询,其检索架构仍然是集中式的。分布式搜索引擎的优势在于可以联合众多的有特色的搜索引擎单元。合理的体系结构可促使系统能够支持成百上千个节点搜索引擎,支持目前连通性较差的IPv6网络以及社交网络等的数据采集,显著提高系统的覆盖率。
本文旨在建立教育网网络环境下的分布式信息检索系统,联合部署在教育网上的多个单元搜索引擎,面向教育网的信息资源,提供统一的检索服务,并使该系统相对于集中式通用搜索引擎更加结构化、专业化和多样化。
本文设计并实现由多个单元搜索引擎节点(Worker节点)、多个查询代理节点(Querier节点),和一个总节点(Broker节点)构成的分布式检索系统。Worker节点是单独的搜索引擎。Broker节点分成网络层、逻辑层和应用层,网络层负责与Querier节点、Worker节点之间的数据传输;逻辑层主要负责节点内部逻辑功能的设计和实现;应用层向Web Server提供Querier选择服务。Querier节点也分为网络层、逻辑层及应用层。网络层的主要功能是与Broker的交互通信,包括接收Broker的Worker更新状态和发送心跳状态信息;跟Broker类似,逻辑层主要负责节点内部逻辑功能的设计和实现;应用层提供了查询接口。抽象适配器(Abstract Adapter Layer),处于抽象层,负责接口的转换整合异构资源。三层架构的设计提高了系统的可扩展性、容错性和吞吐量。
本文基于Web Services和RMI技术,整合异构平台的单元搜索引擎,使得松散耦合方式的单元搜索引擎可以以较小代价融入分布式检索系统中;并设计了响应用户查询时查询代理节点的选择算法,实现查询代理节点的负载均衡。
本文还对系统的性能进行了以下几方面的测试:系统可扩展性、系统的吞吐量、请求数据量的影响、分布式架构开销、通信协议的效率测试。最后,本文基于实验数据还对分布式体系结构带来的额外时间开销的构成情况进行了讨论。