支持向量机分类方法及其在文本分类中的应用研究
【摘要】:支持向量机作为一种基于统计学习理论的新型机器学习方法,较好地解决了非线性、高维数、局部极小点等实际问题,是机器学习领域新的研究热点。文本分类是基于内容的自动信息管理的核心技术。文本向量稀疏性大、维数高、特征之间具有较大的相关性,支持向量机对于特征相关性和稀疏性不敏感,处理高维数问题具有较大的优势,因此,支持向量机非常适用于文本分类问题,在文本分类中具有很大的应用潜力。但是,同时,文本分类也给支持向量机提出了许多富有挑战性的课题。例如,文本分类具有类别和样本数目多、噪音多等特点,支持向量机用于文本分类时存在训练和分类速度较慢等缺点。本文主要针对支持向量机在文本分类等实际应用中存在的问题进行深入研究,主要工作如下:
1、支持向量机是针对两类分类问题提出的,如何将其有效地推广到多类分类仍是一个尚未完全解决的问题。分析了现有支持向量机多类分类方法的特点,并给出了一种半模糊核聚类算法,在此基础上,根据树型支持向量机的特性,提出了一种基于半模糊核聚类的树型支持向量机多类分类方法。该方法基于半模糊核聚类算法挖掘不同类别之间的衔接和离散信息,设计树型支持向量机的树型结构,克服其差错积累问题。实验表明,与其它支持向量机多类分类方法相比,该方法具有较高的分类精度和训练速度,提高了支持向量机在多类分类问题中的应用效果。
2、针对标准支持向量机对噪音敏感,分类时倾向于样本数目较多的类别的问题,给出一种模糊支持向量机的推广模型,并在此基础上,结合近似支持向量机的优势,提出了一种支持向量机组合分类方法。该方法首先采用近似支持向量机快速地去除非支持向量、减少训练样本数目、确定样本权值和模型参数,然后在样本数目较少的训练集上,依据选择好的模型参数和样本权值训练模糊支持向量机的推广模型。实验表明,该方法能有效确定样本权值,减少训练时间,并克服野值点和类别训练样本数目不均衡对分类器的不利影响。
3、通常情况下,支持向量的数目越多,支持向量机的分类速度越慢,如何缩减支持向量集合、提高支持向量机的分类速度是支持向量机的重要研究内容之一。在分析了现有支持向量集合缩减方法的基础上,提出了一种基于虚样本与支持向量回归的支持向量集合缩减方法。该方法是根据支持向量集合和支持向量回归方法的特性,对