收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

微博检索系统关键技术研究与实现

张广源  
【摘要】:与传统的网络信息相比,微博信息产生的速度更快、数量更多、影响更大。因此,如何快速准确的从海量的微博数据中查找出与用户搜索主题相关的博文变得更为困难。正是如此,自2011年起,由美国的NIST和DARPA共同举办的国际知名文本检索会议TREC连续四年设置了微博检索(micro-blog track)任务,推动了世界各国科研工作者对其深入研究。本文依托TREC会议中的微博检索任务,设计并实现了一个微博检索系统,并围绕着微博检索的关键问题——查询词扩展与检索结果排序等进行了一系列研究探索。本文的主要研究工作如下:首先,本文设计并实现了一个微博检索系统,具体实现了文本预处理模块、索引检索模块、查询词扩展模块、检索结果排序模块,重点研究了查询词扩展算法与微博检索结果排序算法,并使用改进的相关算法结果参加了TREC 2013与TREC 2014两年的微博检索评测。其次,本文设计并实现了一种基于关键词的查询扩展方法。针对由于用户查询用词与相关微博文档的关键词不匹配,造成微博信息检索的结果查全率不高,难以满足用户的查询需求的问题,对查询词扩展进行了研究。通过借鉴了关键词提取方法,即把第一次微博检索的前n条微博当做相关微博,为其提取其关键字,并基于提取的关键词实现查询扩展。论文比较了基于词频的查询扩展算法、基于C值法的查询扩展算法以及基于熵差法的查询扩展算法。再次,本文设计并实现了一种微博检索结果二次重排方法。利用了图模型排序算法对微博检索结果进行二次排序。与通常社交网络中图模型的构建不同,本文所用的图模型是通过微博内容间的相似关系利用经典的Page Rank算法进行构建的。论文比较了基于余弦相似度计算方法、戴斯系数相似度计算方法、单向戴斯系数相似度计算方法以及基于查询词的相似度计算方法。通过实验结果我们可以看到,图模型迭代排序算法的效果优劣比较依赖于与相关主题的微博在所有微博中是否占有的主导地位。针对此问题我们通过决策树重排算法来影响非相关主题的微博排序位置。此外,本文设计的相关原型系统参加了2013年、2014年的TREC微博检索评测任务,结果看来查询词扩展能够有效提升微博检索的查全率,检索结果二次重排能够有效提升微博检索的准确率。


知网文化
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978