基于GA-SVM算法的细胞色素酶P450突变预测
【摘要】:人类细胞色素酶P450 (CYP450)在药物代谢第一阶段尤其在药物相互作用和个体差异方面起着重要作用,参与大量上市药品的代谢,且负责药物清除过程的主要排泄通路。单核苷酸多态性(SNPs)是人类CYP450遗传多态性的主要部分,也是引起疾病、药物等个体差异的主要原因。其中,非同义SNP (nsSNPs)可以引起氨基酸突变,并导致蛋白结构和功能的改变,致病可能性最大。因此,本文从蛋白水平对人类CYP450 nsSNPs进行氨基酸突变预测建模。
作为一种统计学习的新方法,支持向量机已被广泛应用于突变预测领域。其中,特征选择和参数优化是决定支持向量机的突变预测建模能力的两个非常重要的因素。而目前大多数支持向量机方法的应用是在特征固定的情况下对参数进行优化。本文应用基于遗传算法和支持向量机方法的改进算法GA-SVM,使得特征选择和参数优化两个步骤同时进行,以此来减少特征冗余和提高预测模型的整体性能。
我们将GA-SVM算法应用到人类CYP450 nsSNPs的突变预测研究中。该算法成功的将特征数目从最初的147个减少到12个。同时,计算得到的最终突变预测模型整体性能较好,预测正确率为61%,交叉验证率为73%。优于典型的线性和非线性分类预测模型。此外,我们还分析了理化性质和结构性质各自对人类CYP450 nsSNP突变预测的影响,认为在建模过程中需要同时考虑这两种性质,预测模型会有更好的整体性能。这些结果证明了GA-SVM算法是人类CYP450 nsSNPs的突变预测建模的一个有效工具。同时,本实验对人类CYP450 nsSNP突变预测的研究有助于对人类CYP450 cSNP的进一步研究,例如:发现新的氨基酸突变,进而发现新的nsSNP;预测同义SNP与nsSNP在药物代谢、疾病发病等方面的功能差异等。