基于PU学习算法的网购虚假评论识别应用
【摘要】:电子商务的日益发展,改变了人们的日常消费习惯,网上购物成为消费主要途径。在线评论作为消费者购物的一个重要依据,成为商家和买家关注的焦点。好评率高的商家店铺更容易获得消费者的青睐。为提升店铺好评率,部分商家利用虚假评论误导消费者来获取利益。监管部门对于虚假评论店铺也制定了惩罚措施,并对虚假评论进行识别,但是商家进行虚假评论的方式更加隐蔽,很难利用人工方法识别海量评论信息。为快速准确地识别虚假评论,本文试图建立一套虚假评论识别体系,包括:数据源获取、文本数据清洗、训练集标注、模型选择与模型应用。首先通过专家指导和机器学习标注相结合构建训练数据集,降低真实评论错误标注的比例,从而提高训练数据的预测能力。其次使用半监督学习的方法,利用少量标记样本,减少标记样本的工作量,利用PU学习算法与朴素贝叶斯、支持向量机、fast Text、GBDT、XGBoost、Light GBM不同分类器进行训练,选取最优分类器与PU学习算法结合。最后对预测结果进行可视化分析,对比虚假评论和真实评论之间的差异。PU学习算法是一种半监督学习,通过将所有正样本和未标记样本进行随机组合来创建训练集。简化了数据标注的流程并提高了分类精度。PU学习算法尤其适用于正例的数量有限并且拥有大量未标记的数据情况,该算法在虚假评论识别领域得到广泛应用。作为应用,利用网络爬虫技术采集电商平台的商品评论实例数据。通过专家指导和机器学习方法部分标注真实评论数据,利用PU学习算法进行分类。实例结果表明:本文方法具有良好的虚假评论识别的性能,这为消费者和监管部门提供了新的方法,具有实际应用价值。