样例权重估计及在此基础上的SVM
【摘要】:样例权重估计和支持向量机(SVM)是从学习样例中获取知识的两类工具,在解决复杂分类学习任务中具有重要的作用。虽然SVM具有优良的泛化性能,但是其应对大规模样本、增量样本及噪声样本的能力有待于改善。如何通过样例权重估计有效获取可供SVM改善其性能的信息也是一个颇具挑战性的问题。本文首先对样例权重估计进行了深入探讨,研究如何将机器学习技术应用于样例权重估计,以提高信息获取质量,然后研究了基于样例权重估计的增量SVM和模糊SVM(fuzzy supportvector machine,FSVM)。
本文主要工作包括以下几个方面:
1.提出了基于零间隔分类面的样例权重估计方法。该方法为每个样例建立一个通过它的合适的分类面,即零间隔分类面,该分类面对两类样本的分类精度或误分率作为该样例的权重。所产生的权重作为概率预测了样例在未来SVM学习中的重要性,同时也预测了SVM可能达到的分类精度。这表明,新方法产生的权重是根据样例对学习机的影响效果计算的,对学习机的性能具有正面引导作用。而传统几何距离型权重对学习机的影响情况是很难预测的,对学习机的性能难以进行正面引导。在模拟数据和IDA真实数据上的实验结果表明,所提方法对样例作用的预测性能比传统方法有显著提高。
2.提出了基于准支持向量界定的增量SVM。该方法在接收增量样例的同时淘汰无用历史样例,使系统只保持较有价值的学习样例,减轻系统存储和计算负担。准支持向量使用基于零间隔分类面的样例权重估计方法获取,具有计算节时、筛选质量高的综合优势。在模拟数据和IDA真实数据上的实验结果验证了所提方法的优越性。
3.为了抑制噪声/离群点对SVM的不利影响,利用样例权重估计方法设计了一种新型模糊权重函数,并将其与SVM结合形成FSVM。与使用传统模糊权重函数的FSVM相比,所提出的FSVM能够更有效地抑制离群样例。在模拟数据、IDA和UCI真实数据上的实验结果表明新FSVM的分类性能优于传统FSVM。
4.针对数据集含噪情况未知的情况,提出了一种权重水平浮动的FSVM,以提高FSVM对不同数据集的学习性能,使FSVM具有部分或完全转变为SVM的能力。在该方法中,样例模糊权重的大小将随数据集的可分性作浮动。不影响分类性能的样例免于抑制,只有影响分类性能的样例才会受到适当的抑制。权重水平浮动的FSVM对数据集噪声情况具有智能判别能力,能够在执行标准SVM程序和执行具有抑制功能的传统FSVM程序之间自动切换,减轻了用户手工选择不同类型分类器的负担,克服了盲目、过度抑制样例影响SVM性能的问题。在IDA和UCI真实数据上的实验结果验证了所提方法的有效性。