基于特征选择融合和代价敏感学习的蛋白质亚细胞定位研究
【摘要】:蛋白质分类预测通常包括如下四个步骤:(1)构建合理的蛋白质数据集;(2)特征描述方法把蛋白质信息转化为特征向量;(3)若数据集维度较高,需要进行降维处理;(4)建立分类模型对蛋白质分类预测;(5)用检验方法和评价指标衡量分类效果。如何提高蛋白质分类的精度和降低对内存的需求,一直都是研究者重点关注的问题。特征工程和分类算法是蛋白质分类预测研究问题中最关键的两项技术,直接决定着分类效果的好坏。特征工程决定分类效果的上限,而模型和算法只是尽可能达到该上限。因此本文以蛋白质亚细胞位置定位预测为主题,针对蛋白质亚细胞定位的特征表达、分类算法展开了相关的研究,主要工作和创新点如下:一、提出特征选择加权融合的方法对数据进行特征筛选,从而得到最优特征集合并降低数据维度。因为生物数据具有数据量大、维度高、计算复杂、耗时等特点,所以首先就要对获取的生物数据进行降维处理。本文提出SVM-Logistic-RFE算法,引入特征选择的方法,它不改变原始特征值,只消除冗余和不相关特征,选择最有用的那一部分特征,并将递归特征消除法(Recursive feature elimination method,RFE)和支持向量机(SVM)及Logistic回归相结合,分别对原始特征进行筛选,得到各自的最优子特征集合,并加权融合得到新的最优特征集合,最后利用K最近邻算法分类。实验表明:(1)采用特征选择后,分类效果明显增强了;(2)特征选择融合的分类效果和稳定性都比单一的特征选择好。二、针对蛋白质数据类别不平衡问题,本文提出基于代价敏感学习的贝叶斯决策树算法(NBDT-cs算法)。传统的蛋白质分类问题很少考虑到数据类别的不平衡性。在本文中,我们引入代价敏感学习概念,把代价增益作为决策树的属性选择,在决策树的叶子结点采用含代价期望的贝叶斯算法,提出基于代价敏感学习的贝叶斯决策树算法,该方法有有效解决蛋白质数据类别不平衡问题。实验表明:(1)该方法的分类效果比单一的贝叶斯算法、决策树算法都要好,略好于K近邻分类器;(2)在不降低总体分类精度的情况下,可以提高少数类别的分类精度。