基于增量划分指导数据集的两层自动选择SVM模型
【摘要】:
机器学习和数据挖掘面对的都是一些不确定的,含有大量噪音的信息。噪音数据严重影响了机器学习和数据挖掘结论的准确性和稳定性。为了消除噪音数据的负面影响,本文在标准支持向量机算法的基础上提出了一种改进的支持向量机算法。
标准支持向量机算法中的惩罚参数在整个分类过程中一般是保持不变的。惩罚参数不随数据属性的逐步发掘而变化,有一定的局限性。本文在前人工作的基础上,给出了随惩罚参数变化的支持向量机模型的对偶二次规划模型;论证了随着惩罚参数数值的变化,基于高斯核函数的支持向量机模型的最优解是存在的。基于这种存在性,本文进一步提出了一个基于增量划分指导数据集的两层自动选择支持向量机算法。在该算法中,对于某次迭代,本文将指导数据划分为n个元素个数相等的子集。顺次使用这n个集合中的n - 1个建立支持向量机模型,同时对剩下的一个子集做出预测,以判断模型的准确度。在检验的过程中,可以控制参数网格节点的取值运动方向。但是也应该注意到,这种穷举的搜索方法是相当的耗费计算时间的。本文分两步来减小其所需的计算时间。首先,在刚开始计算时可以使用比较粗糙的网格值。一旦确定了比较理想的取值区域,再来细分值域网格确定较为合适的参数。
数值实验的结果表明,本文提出的算法对不同属性数目的数据具有相当的稳定性,算法的分类精度随着迭代次数的增加也具有较好的收敛性。这说明本文提出的算法能够较好的处理含有噪音的数据。