第三方点评网站垃圾评论分类模型的构建
【摘要】:以大众点评为代表的第三方点评网站的迅速发展,掀起了用户在网络上发布评论的热潮,也使得越来越多的消费者养成做决策之前阅读评论的习惯。这些在线评论作为消费者产品体验的一种反馈,包含了很多重要信息。评论中所表达的信息很有可能影响个人的看法和决策行为,因为在群体智慧的影响下,人们会产生从众心理。大众点评作为一个人们可以自由参与点评的网站,本身拥有大量的活跃用户和在线评论,不可避免会出现恶意评论、无关评论等垃圾评论。这些垃圾评论混淆视听,在一定程度上会影响评论信息的参考价值,从而导致潜在消费者做出错误的判断。美国竞选总统的事件,网络水军就起到了举足轻重的作用。可见,评论的真实与否,对用户决策行为的影响十分突出,及时发现和识别垃圾评论就显得尤为重要。因此,本文的研究目的是通过基于机器学习的分类算法来构建检测垃圾评论的模型,以降低大众点评网站识别垃圾评论的成本,提高识别效率。研究方法上,本文采用了机器学习结合实证分析的方法。在对国内外相关文献梳理与分析的基础上,通过数据采集与清洗、自然语言处理、情感分析、特征挖掘等研究步骤,并以数据特性和数据量大小为依据,构建了基于朴素贝叶斯算法的分类模型。本文在构建模型过程中,采用了不同特征组合的形式来构建不同的分类模型,总共得到92个分类模型。通过比较每个模型的测试准确率、精确率、召回率和F1值,最终选取了模型10作为本研究构建的分类模型。该模型的测试准确率和F1值分别达到76.13%和76%,说明该模型具有较好的性能和分类效果。最后基于得到的分类模型,本文分别从大众点评网站、商家和消费者三个视角讨论该模型带来的益处。大众点评网站使用该分类模型不仅可以降低网站中垃圾评论的比例,还可以为商家提供有效信息以改善自身不足,同时为消费者决策行为提供了更可靠的参考依据。