收藏本站
《兰州大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

BPSO-SVM特征选择及其在分类中的应用

魏佳璇  
【摘要】:使用数据分类技术处理大规模数据已经逐渐成为机器学习和数据挖掘领域中的一个重要研究方向,同时随着人们对数据信息的掌握和分析的需求不断增加,对分类方法的性能提出了更高的要求。因此,针对提高分类方法效率,特征选择方法成为重要研究手段之一。特征选择方法可以从数据样本中筛选出重要的特征子集,根据特征子集分类,不但可以满足初始数据样本的分类需求,还可以提高数据分类的准确度,使得数据的决策分析结果更具精准性、更具指导意义。本文主要在特征选择算法及其在分类算法中不同类型数据的应用方面展开了研究,主要工作包括以下方面:(1)根据对特征选择算法的研究,以二进制粒子群优化算法(BPSO)为基础,分析了BPSO算法在特征选择过程中产生影响的各个因素,通过对算法改进,一方面尽可能减少所选属性个数,另一方面同时提高分类算法的性能,提出了基于记忆更新和变异增强的ME-BPSO-SVM的特征选择方法。该算法能在一定程度上能够克服粒子过早收敛问题,并通过判断粒子陷入局部最优的时机,使粒子及时跳出局部最优。实验结果表明,ME-BPSO-SVM在找到更加有效的属性特征子集的同时,可以保持良好的分类性能,阻止粒子过早收敛效果明显。(2)基于算法ME-BPSO-SVM设计了新的解决不均衡数据分类问题的算法思路:先对SMOTE采样方法进行修改,在特征选择的寻优过程中重新定义了ME-BPSO-SVM算法评价函数,然后提出了混合改进的SMOTE和ME-BPSOSVM的MSM(Modified SMOTE with ME-BPSO-SVM)算法。MSM算法只针对少数类中有效的样本进行采样,从而减少生成无关样本的时间,以消除生成无关样本对算法复杂度的影响,使其适用于不平衡数据的分类模型,提升分类算法性能。实验结果表明,混合算法MSM能够选择更加有效的特征子集,同时验证了算法MSM在分类性能上有显著提高。(3)高维小样本数据给传统的机器学习和数据挖掘方法带来了挑战,特别是数据中不断增长的维度会使得数据包含大量的冗余和不相关信息,这类信息会导致机器学习算法的性能大幅降低,引起“维度灾难”。而在现实中,又不得不面对大量的高维小样本数据,尤其是生物信息学中的DNA微阵列数据近年来研究较为广泛。针对解决高维小样本数据的特征选择和数据分类问题,考虑结合算法ME-BPSO-SVM和MSM,提出一种新的混合特征选择方法。该方法采用改进的过滤型方法RT(SVM-RFE with Information Gain),分别混合两种包装型算法MEBPSO和MSM。并且将混合算法应用于公共数据集中有关DNA的数据进行研究,通过大量实验验证了提出算法的有效性和可靠性。同时,在实际的孤独症病理诊断的DNA微阵列数据上应用该算法进行分析,并和对文中提出的三种演进方法的实验结果进行比较分析。实验结果表明,混合算法RT-MEB和RT-MSM能有效解决此类高维小样本的数据分类问题。
【学位授予单位】:兰州大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP18

中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026