基于微博内容的热点话题趋势预测设计与实现
【摘要】:微博作为一个新型社交平台,由于用户可以随时随地发布信息,并且可以通过点赞、评论、转发等形式来实现信息分享,使得微博已经发展成为当今最为流行的在线社交网络平台之一。在日益发展的路程中,微博每天数据流量已经达到上亿次,而挖掘微博数据的价值就显得尤为重要。如何有效的对数据获取与分析,并通过结果预测当前热门话题的走势,已经成为一个重要的研究方向。本文采用新浪微博数据,分析了新浪微博的组成结构和传播方式。在研究微博数据的过程中发现,对数据的处理异常困难,其难点在于微博信息的发布过程中具有随时随意性,用户可以在任意时间点发布信息,而且发布微博信息的内容字数较短,失去了文章的完整性,导致碎片化严重。其次是传播速度极快,一条备受关注的信息,会在几分钟之内就会传遍整个网络,很难预测信息的传播走向,及时发掘可用信息是个技术难题。如何有效分析信息的传播方式和关键用户影响力大小,对能否提高整个系统的预测效果有很大影响。针对以上难题,本文分析了微博的组成结构和信息在微博平台上的传播模式,设计和实现了针对微博内容的热点话题预测系统。该系统以爬取新浪微博信息数据为支撑,以大V和名人微博数据爬取为突破口,以此来研究信息在传播过程中的关键数据节点。通过数据过滤算法筛选出有效数据,利用贝叶斯算法进行数据分类,经过TF-IDF提取数据特征,分析用户影响力关系,计算这些事件和词汇的传播趋势,结合传播趋势预测话题走势,实验表明该系统的有效性和准确性达到了设计要求。