基于聚类的相关向量机快速分类算法研究
【摘要】:分类是一个比较复杂且实用的问题,它涉及多个学科的研究领域,如统计学习、机器学习、数据挖掘等。针对分类问题,Michael E. Tipping提出一种基于稀疏贝叶斯学习理论的相关向量机,此学习机训练出的模型不仅具有很好的稀疏性,而且是概率输出。但当训练数据集规模较大时,该模型训练的时间复杂度较高,本文从以下几个方面对该问题进行研究和分析:
1.基于局部分类的思想,本文提出基于聚类的相关向量机快速分类算法BS-RVM(算法名称是Bit Reduction算法、SMOTE算法、RVM结合而成)。该算法引入Bit Reduction算法对训练样本进行聚类,将其划分为多个不同的数据簇,并利用SMOTE算法对其中的不平衡数据簇进行调整和处理,然后针对各个数据簇,构建多个局部分类器。
2.本文根据测试样本与众多局部分类器对应的二进制码之间的海明距离,选择最近的分类器进行测试,这是一个分类器动态选择的过程。并通过5组数据集的实验,说明BS-RVM算法在一定程度上提高了模型的训练速度和稀疏性,且具有处理大规模数据集的能力。
3.本文对聚类算法Bit Reduction中参数b与模型训练时间、相关向量个数(RVS)、误差率、测试时间之间的关系进行讨论,得到如下结论:当参数b值逐渐增大时,该四个衡量指标逐渐趋向平稳状态。
4.最后本文通过可视化的方法对相关向量定性解释进行说明,并从此角度说明BS-RVM算法具有较好的可行性。