博客意见检索关键问题研究
【摘要】:近年来,互联网中意见性信息的价值逐渐受到人们的重视,与此同时,越来越多的科研人员致力于意见检索的研究。博客作为网络中一种含有大量意见性信息的媒体,成为意见检索研究的主要对象之一。如何从海量博客中检索到既与某一主题持续相关又包含意见性信息的博客,即博客意见检索问题,是当前意见检索、数据挖掘等领域的一个研究热点。文本检索会议(Text Retrieval Evaluation Conference,TREC)早在2006年就引入了博客意见检索任务,从此,越来越多的研究人员借助该平台展开了博客意见检索的相关研究并取得了较为丰硕的研究成果,但在博客表示、主题得分和意见得分的融合、意见得分计算等问题上,仍需要进一步探讨。本文针对前人在博客意见检索中遇到的一些关键问题,进行了如下研究:1.针对全局模型对于多主题的局限性和伪簇选择模型参数固定的问题,本文通过分析不同的表示模型,并结合任务特点,提出了一个新的博客表示模型,该模型使用得分最高的前k个博文来表示博客并且k值可随相关博文数量而变化。2.针对传统两阶段处理方案中主题得分和意见得分的融合问题,本文借鉴了前人的博文意见检索框架,将通过贝叶斯方法推导出的生成模型应用到博客意见检索中主题得分和意见得分的融合问题上。3.针对计算意见得分时忽略了与主题相关的意见性信息的问题,本文提出了一种新的意见检索模型:从通用意见词典出发,使用点互信息方法为不同主题扩展不同的情感词,然后使用伪相关反馈技术和语言模型方法来计算博客的意见相关度,该模型不仅在扩展情感词时考虑到了备选词与主题的相关信息,在计算意见得分时也充分考虑了这些信息。本文对上述三种模型分别进行了对比实验,实验结果验证了本文方法的有效性。实验采用TREC 2010提出的主题和数据集进行评测,本文系统的整体实验结果超过了当年TREC的最好结果。此外,本文研究的意见检索方法不需要任何训练数据,因此可以应用到其他类似问题中。