基于SA-SVM的中文文本分类研究
【摘要】:信息技术的飞速发展使互联网的数据和资源逐步呈现海量化,但是海量化的信息杂乱无章,常常导致人们无从下手。为了有效地管理和利用这些庞大的信息,信息智能检索、信息过滤和数据挖掘等应运而生,其中,文本分类是它们最重要的支撑,它利用计算机相关技术将具有相同特征的文本根据其内容自动划分到预先设定好的文本类别体系中。文本分类能为信息管理和利用带来便利,具有很广阔的应用前景。分类算法是文本分类的核心,众多学者在研究中文文本分类的过程中,为我们提供了许多优秀的分类算法,传统的机器学习分类算法有贝叶斯算法、KNN算法、逻辑回归算法、决策树算法以及支持向量机算法(support vector machine,SVM)等。大量的实验研究表明,在中文文本分类上,SVM具有很强的学习能力和泛化能力。通过对SVM算法原理分析以及实验例证,可以得出基于SVM的文本分类性能与其惩罚因子?和核函数参数?等紧密相关,惩罚因子?和核函数参数?的参数选择直接影响着文本分类的精度。针对传统的优化SVM参数方法的不足,通过理论分析和实验验证,发现模拟退火(simulated annealing)算法在三维空间中具有较强的全局搜索能力。本文提出了一种利用SA优化SVM参数的方法,并利用几组标准的UCI数据集与几种优化算法的性能进行比较,证明SA-SVM模型在搜索SVM最优参数时利用其随机扰动的概率突跳特性能跳出局部最优,找到全局最优的参数,使模型具备很好的分类性能。为了体现SA-SVM的分类模型在实际应用的价值,将本文提出的SA-SVM分类模型应用于中文文本分类的实践中,并利用复旦大学中文文本语料库和搜狗中文文本语料库作为实验数据集,与几种常用的分类算法进行实验对比,验证SA-SVM分类模型的在中文文本分类中应用的分类性能。实验结果表明,本文提出的SA-SVM分类模型,相比其它中文文本分类算法,具有较强的泛化能力,取得了良好的分类效果,展现了较为显著的分类性能。