支持向量机增量学习算法研究
【摘要】:Vapnik于1995年提出支持向量机(Support Vector Machine,SVM)这一针对分类和回归问题的统计学习理论,是利用线性函数假设高维特征空间的学习系统。支持向量机自推出即刻成为机器学习和模式识别领域的研究热点,而且因其全局最优以及推广能力强的优点,近几年无论是在理论上还是应用上都得到了广泛的关注并取得了诸多成果。但由于支持向量机方法复杂,导致在处理大规模数据集时存在相关问题。因此本文从降低时间和空间复杂度的角度出发,主要针对支持向量机的增量学习问题展开以下几个方面的研究。
首先介绍了统计学习理论与支持向量机方法,这一部分是后续研究内容的理论前提。
描述并比较了目前研究与应用较多的几种支持向量机增量学习算法,分析了基于支持向量和基于KKT条件等代表算法的特点和不足;吸取了基于超球支持向量机增量学习策略中的几何知识,以及借鉴了渐进式增量学习策略适合处理较大规模数据集的优势,为下面即将提出的改进算法提供了思路和方法。
在上述分析总结的基础上,提出了一种基于壳向量的支持向量机渐进式增量学习算法;在增量学习的过程中,首先在原始样本中提取出壳向量,将其作为新的训练样本集,这样很大程度上降低了求取支持向量过程中的二次优化时间;同时利用由原始分类器所确定的KKT条件来淘汰一部分新增样本,以降低新增样本的数量及其训练的时间。总之,该算法在训练过程中对历史样本以及新增样本较好地实现了有选择性的遗忘淘汰机制,同时保证良好的分类精度。仿真实验表明了算法的有效性。
最后,将所提出来的支持向量机增量学习算法在手写数字识别系统中进行了应用研究。