基于支持张量机的中文文本分类研究
【摘要】:基于机器学习的文本分类是自然语言处理领域的重要研究方向之一,能够帮助人们快速、准确地进行信息的获取。目前大部分机器学习算法采用向量形式进行数据的表示。相比之下,采用张量形式进行数据的表示能够更多地保留多模态数据的内在结构信息,并且在面对高维小样本数据时,有着更强的泛化能力,因此近年来基于张量数据的机器学习算法愈发受到研究人员的重视。本文围绕支持张量机与文本分类两个主题进行展开,着重研究了支持张量机模型的优化,以及优化模型下,文本张量空间模型的构造问题。主要包含以下几部分内容:1.提出秩r支持张量机模型。该模型针对秩一映射支持张量机与支持向量机的优点与局限性提出。采用秩约束的方式控制学习模型参数个数,用于处理不同的训练集。针对不同的张量秩定义,给出了CP秩与Tucker秩下的等价模型,以及相关优化问题的解法。2.提出了秩r支持张量机近似最优秩约束的一种解法,该解法基于对秩r支持张量机求解过程中交替投影过程的实质的分析。3.提出采用正负相关特征的权重降序交替列填充法,构造张量空间模型。该模型构造方法基于对文本分类中特征权重分布情况的分析。4.设计了一套可行的中文文本分类系统。该系统结合了以上三点内容以及常见文本分类技术。系统先通过对文本的预处理、特征选择等流程对文本进行向量化表示。通过在SVM上初步训练,得到优化的张量空间模型与近似最优秩约束,进一步得到文本的张量化表示。最后输入秩r支持张量机进行训练,并在测试集上评估。本课题研究成果可用于文本的主题分类。研究重点是对支持张量机以及张量空间模型的优化,具有较高的可扩展性,因此对诸如人脸识别等其他领域的机器学习算法也有较为可观的借鉴意义。