面向Blog的自动摘要与搜索排序算法研究
【摘要】:随着信息技术的不断发展,Blog应用正在不断普及和深化。庞大的Blog用户群所形成的海量信息源使得Blog成为一个极其丰富而有价值的信息资源库。面对如此巨大的信息资源,优秀的Blog搜索引擎显得十分重要,这一需求使得Blog搜索引擎受到越来越多研究人员的关注。在与之相关的研究中,合理的自动摘要能够让用户迅速判断出信息的有效性,良好的搜索排序算法能够优先返回给用户质量更高的结果,这两部分对Blog搜索引擎的好坏无疑有着决定性的作用。
本文主要针对面向Blog的自动摘要和搜索排序算法进行了较深入的研究,主要研究工作概括如下:
1)描述了Blog相关概念,介绍了和本文研究相关的国内外研究现状,分别对面向Blog的自动摘要和搜索排序算法的相关方法进行了详细分析。
2)根据本文应用需求,对Blog中的信息进行了两方面预处理,包括:将评论识别成讨论型评论、关注型评论、垃圾评论三类,并根据类型挖掘对应的价值;利用贝叶斯文本分类方法,融合博文、标签和评论三种特征对博文进行分类。
3)提出了一种基于特征信息的Blog自动摘要方法。该方法在充分利用Blog特征信息的基础上,基于潜在语义相关性来融合评论中的关注点,生成对读者更为友好的摘要,同时通过摘要复选的方法平衡了主题覆盖与信息冗余。
4)利用博主之间的各种关注关系评价博主的影响力,继而计算博文的内容价值,并考虑评论因素,给出博文的静态得分。然后考虑博文新鲜度,查询相似性等多方面因素来对搜索结果进行合理排序。
5)利用上述研究成果,设计并实现了一个能够适应用户对评论偏好的Blog搜索引擎原型系统,该原型系统同时提供了分类浏览功能。