搜索引擎返回结果的自动摘要研究
【摘要】:
目前,大多数搜索引擎系统都是基于用户关键词查询的信息检索系统。在使用这类搜索引擎查询信息时,主要通过匹配用户输入的查询关键词进行检索。由于用户输入查询词的数目有限,因此仅通过用户输入的关键词并不能很好的体现用户的查询意图。另外,搜索引擎将查询结果返回给用户时,往往将只包含用户查询请求的几个句子作为Web页面的摘要返回给用户。虽然返回摘要的内容包含用户的查询关键词,但是这些句子并不能表达出整个Web文档的中心意思。也就是说,用户通过阅读搜索引擎返回的摘要并不能确定自己查找的信息是否包含在这个页面中。
针对上述问题,本文对搜索引擎返回结果的自动摘要进行了研究,在对用户查询关键词扩展的基础上,提出一种适合用户查询的句子权重计算方法,通过有效地利用关键词间的距离信息来提高摘要的准确率和覆盖率,方便用户查找自己所需要的信息。
基于伪相关反馈的思想,对用户的查询关键词进行扩展。根据用户的原始查询关键词将文本中的句子分为主题相关句和非主题相关句,只选取主题相关句子中的名词或者名词短语作为查询扩展的候选扩展词语。通过计算候选词与用户查询关键词之间的相关权重来选择查询扩展的扩展词。从而使最终得到的查询关键词序列既体现Web页面的主题,又满足和查询的相关性。
在计算句子的重要度时,考虑句子中包含的用户查询关键词之间的关系,基于“词距离越近,关系越密切”的原则,在句子权重计算公式中有效地引入词的距离信息,提高用户查询的准确效率。实验结果表明,使用融合词距离信息的句子权重计算方法可以帮助用户更加有效地选择用户感兴趣的句子,使得生成的摘要既能准确的表达用户的查询意图又能体现Web页面的中心思想,从而提高用户查询信息的效率,节省查找信息的时间。