基于乳腺癌基因表达数据的特征选择算法研究
【摘要】:近年来,随着发病率和死亡率的持续升高,癌症已经成为影响人类健康的重要因素之一。乳腺癌作为女性疾病中最常见的恶性肿瘤,严重危害着女性的健康。在目前的医疗设备和医学技术背景下,早期诊断和早期治疗成为治疗乳腺癌的关键手段。随着机器学习技术的不断发展,机器学习算法能够以更简单、更有效的方式检测出患癌症的风险,从而达到降低癌症发病率的目的。依托机器学习的背景,基因检测手段也在不断地发展。肿瘤的产生和发展与基因密切相关,将基因表达数据用于乳腺癌的早期诊断对乳腺癌的发现和识别具有重要的意义。使用机器学习相关算法对基因表达数据进行特征选择及分类来预测癌症发病情况,已成为癌症分类领域的热点问题。基因表达数据具有高维度的特点,然而高维度特征集合中包含着大量与癌症无关的数据。因此需要对其使用特征选择方法,筛选出与乳腺癌有关的特征基因集合。传统的特征选择方法,如卡方检验、决策树和信息增益等,通常存在不能有效去除特征冗余、时间复杂度高和过拟合等缺点。因此,如何选用合适的特征选择方法成为本文研究的重点问题。本文在国内外学者对乳腺癌特征基因选择算法的研究基础上,提出了三种新的基于机器学习的特征选择算法Ave-mRMR、RFFS-GS和SVM-RFE-PO算法。首先通过使用上述三种特征选择方法筛选出与乳腺癌有关的特征基因子集,再将选择出的最佳特征子集分别用于支持向量机分类器和Bootstrap-SVM集成分类器进行乳腺癌分类,从而得到更有效的特征选择算法。本文主要研究工作包括以下四个方面:(1)在传统的特征选择算法mRMR算法的基础上,提出了一种引入互信息标准化的Ave-mRMR算法。该算法在去除冗余特征的同时保证了特征与类别间的最大相关性,并且平衡了特征间的相关性和冗余性。本文在DNA微阵列数据集和RNA-seq基因表达数据集上分别采用上述两种特征选择算法选择特征基因,并使用选择出的最佳特征基因子集进行乳腺癌分类。实验结果表明,改进后的特征选择算法Ave-mRMR能够更准确地选择出与乳腺癌相关的基因。(2)在基于随机森林的特征选择算法RFFS的研究基础上,提出了一种基于参数优化的RFFS-GS算法模型。该模型将网格搜索算法(GS)应用到RFFS算法的参数寻优过程中,先使用网格搜索算法进行参数寻优,然后将得到的最优参数值应用到RFFS算法中随机森林的构建过程,最终得到一种更精确、更有效的特征选择算法RFFS-GS。本实验通过在DNA微阵列数据集和RNA-seq基因表达数据集上使用上述两种特征选择算法选择特征基因,然后分别使用得到的最佳特征基因子集进行乳腺癌分类。其结果表明,改进后的RFFS-GS算法能够进行更有效的特征基因选择。(3)在基于支持向量机的递归特征消除算法SVM-RFE的研究基础上,提出了一种基于参数优化的特征选择方法SVM-RFE-PO,即基于支持向量机的递归特征消除和参数优化算法。通过应用网格搜索算法(GS)、粒子群算法(PSO)和遗传算法(GA)搜索特征选择过程中的最优参数值,提出了三种新的特征选择方法:基于支持向量机的递归特征消除和网格搜索寻优算法(SVM-RFE-GS)、基于支持向量机的递归特征消除和粒子群寻优算法(SVM-RFE-PSO)和基于支持向量机的递归特征消除和遗传寻优算法(SVM-RFE-GA),本文将上述三种算法统称为SVM-RFE-PO算法。本实验首先通过在DNA微阵列数据集和RNA-seq基因表达数据集上使用上述四种特征选择算法进行特征基因的选择,然后分别使用得到的最佳特征基因子集进行乳腺癌分类。实验结果表明,SVM-RFE-PSO算法具有更高效的特征基因选择性能。(4)提出了一种基于Bagging算法的Bootstrap-SVM集成分类器模型。该模型主要通过Bootstrap采样方法获取训练集的不同子集,通过训练集的差异性获得具有差异性的基分类器。然后采用一定的组合策略将训练后产生的若干个弱分类器集成为一个强分类器Bootstrap-SVM。实验表明,集成分类器Bootstrap-SVM的分类准确率要高于单分类器SVM的准确率。本文基于不同的参数优化方法对现有的特征选择算法进行了改进,针对不同特征选择模型所得到的特征子集进行分类实验后发现,改进后的特征选择算法明显具有更高效的特征选择能力。因此,对特征选择算法进行参数优化是一个非常有意义的课题。