Deep Web信息集成架构及相关问题研究
【摘要】:
随着网络技术的不断发展,如今的Web信息以两个层次形式提供用户使用,其中能够被传统的搜索引擎检索的Web信息被称为Surface Web;由于传统的搜索引擎和爬行器不具备自动填充表单的能力,导致了不能有效的搜索隐藏于查询表单之后的数据库信息,这部分Web信息被称为Deep Web,即深度网。在电子商务领域中,许多电子商务站点都由Web数据库提供数据服务功能,是典型的Deep Web。例如,在图书领域amazon.com提供给用户一个全局查询表单,以供用户输入的查询实例在数据库中搜索相应的结果。2000年Bright Planet公司发布了第一份关于Deep Web的调查报告--Deep Web白皮书。白皮书指出整个Web上大约有43,000-96,000个在线Web数据库,蕴藏了更加丰富,领域相关度更高的信息。在随后2004年Illinois大学研究者的又一份调查发现Deep Web的数量在四年当中增加了近六倍。
如此丰富的数据源引起了国内外研究者的高度兴趣,相关研究者着眼于Deep Web研究关键点提出一系列原型结构和方法。本文在总结前人工作的基础上结合所属实验长期取得的研究成果,对Deep Web集成的相关问题进行了深入研究,主要研究内容如下:
1.提出一种Deep Web集成系统中介模型,中介模型主要由四个功能过程和六个功能模块组成,其中四个功能过程包括:数据源发现、数据源分类、模式集成和完备性、拓展性检查;六个功能模块包括:全局模式或全局查询接口、查询重写引擎、查询优化器、查询执行引擎和数据源索引器和结果显示引擎。按照Pre-和Post-工作分类可以将整个功能框架分为两个阶段,即预处理阶段和服务阶段。预处理阶段是指为生成整个框架服务方式全局查询接口所做的前提工作,服务阶段是指当整个框架稳定后,用户提交查询实例时的具体工作细节。
2.提出一种充分利用查询接口表单的启发式信息和本体实例信息的属性抽取方法。通过利用实例信息处理无语义词,在查询过程中有效的使其具有语义描述功能。本文使用了本体工具WordNet以获取更丰富的表单属性集合,并建立表单属性间的语义关系,在语义层面上对属性进行描述。
3.提出一种基于本体技术扩展的Deep Web模式描述方法。根据本体工具的结构特征,给出了一种有效的属性间语义距离计算方法,使用语义矩阵描述属性间的语义关系,并在基于上三角矩阵回溯算法生成的语义关联集合上建立中介模式与局部模式间的语义映射机制。在知名数据集上的实验,验证了基于本体技术扩展的模式描述方法在处理模式描述过程中语义问题的有效性和可拓展性。
4.提出一种基于Deep Web查询接口融合的增量式本体构建方法,以查询接口描述的属性及属性关系为基础不断地融合新的查询接口,在融合过程中调节概念间的层次关系最终生成Deep Web具体领域描述的知识。