基于图神经网络的商品文本分类研究
【摘要】:自2016年以来,我国电子商务快速蓬勃发展,网民的规模和交易额以较高的增长率在持续上升。伴随着电子商务产业的迅速发展,商品品类琳琅满目,如何快速实现商品自动分类,提高商品分类的精确和效率是亟待解决的问题。本文针对商品名称进行分析,利用智能方法通过商品名称实现商品的自动化分类。商品名称文本长度较短,上下文数据稀疏,语义信息缺失,现有的监督学习方法在处理短文本上性能不尽人意。针对此问题,本文重点研究图神经网络的文本分类算法。本文研究的具体内容包括:1.研究分析商品名称文本数据,对数据进行描述性分析,探索数据中蕴含的关键信息。针对数据不平衡的问题,文中采用欠采样的方法,从丰富类别中随机选择与稀有类别数量相等的样本,目的是为了获取高质量的数据用于后续建模分析。2.数据进行预处理,主要分为分词、去停用词、文本向量化。考虑到商品名称中蕴含丰富的专有名词,本文对分词词典进行了扩展,主要增加电子商务产业的相关品牌词汇,生成针对电子商务商品名称的分词词典,其目的是为了获得更好的分词效果。3.研究分类器图卷积神经网络,使用大模预训练和直推式学习相结合的文本分类模型,采用Git Hub上50万条已标注的商品名称和类别关系数据进行算法验证分析。实验中,按照3:1:1的比例划分训练集、验证集和测试集,实验结果表明,模型的准确率为89.51%,绝大多数类别都可以被精准识别,较文本图卷积神经网络性能提升了约7%,并与其他五种监督学习方法相比,文中采用的图卷积神经网络算法的分类性能较为优越。