基于支持向量机的建模预测研究
【摘要】:预测分析是根据过去和现在的已知去推测和预料将来的未知,是对被预测事件发展过程中可能发生的一些不确定因素和未知事件做出的定性和定量描述。本文主要研究机器学习中智能性预测技术——基于支持向量机的分类和回归问题。
支持向量机是继神经网络后机器学习的热点研究技术,它主要应用于分类和回归问题中。它是建立在统计学习理论的结构风险最小化基础之上的,克服了神经网络的过拟合缺陷,大大提高了泛化能力的一种新的神经网络模型。混合学习和集成学习是目前机器学习研究中的热点研究方法,倍受学者们的关注。本文基于混合学习和集成学习的思想,将这两种方法应用于支持向量机建模技术中,主要解决预测分析问题。
本文的主要工作包括:
〔1〕首先结合粗糙集的属性约简和支持向量机的分类机理,提出了一种混合算法。应用粗糙集理论的属性约简过程作为预处理器,从两维(横向、纵向)的角度出发,把冗余的属性和冲突的对象从决策表中删去,但不损失任何有效信息;然后基于支持向量机进行分类建模和预测过程。最后,我们进行了仿真实验。
〔2〕在此基础上,本文又针对属性个数特别多的情况提出了一种新的混合学习方法。首先提出两个选择属性重要度的概念:相关度和贡献度;在主成分分析方法中,基于描述属性变量之间关系的相关度大小选取我们所需要的重要属性集合(主要成分集合);然后在粗糙集中,根据主成分分析中选出的属性对决策变量的贡献度,来进行属性的第二次约简,最大程度地去除冗余的和不重要的属性,简化输入支持向量机进行建模的维数,最后的仿真实验说明了我们方法的有效性。
〔3〕根据集成学习的思想,提出了集成支持向量机的建模预测方法。通过在训练样本中选取不同的样本集数量,构造出覆盖不同问题域的支持向量机模型,然后采用各种不同的集成手段来综合这些单一支持向量机的优势。我们提出了多种支持向量机的集成方法,包括:具有线性优化功能的最小二乘法、以及非线性双层层次优化的决策支持法,并和Adaboosting中传统的多数投票法进行了比较。采用集成算法后,大大减少了支持向量机二次规划求解过程中存储核函数矩阵对内存的占用,提高了运行速度;同时,集成多个单一训练器的预测精度明显比单一训练器的要高,这在最后的仿真实验中都得到了验证。