核蛋白的亚核定位和植物、非植物及小鼠蛋白质的亚细胞定位预测研究
【摘要】:
随着人类基因组计划的实施和推进,数据库中出现了大量未注解的蛋白质序列,如何获取这些蛋白质序列的功能信息已成为当今生物信息学的研究热点。蛋白质的功能与其亚细胞定位密切相关,因此,研究蛋白质的亚细胞定位,可以为了解蛋白质的功能提供重要线索。
本文分别以核蛋白、植物和非植物蛋白以及小鼠膜蛋白为研究对象,利用离散增量(ID)、离散增量结合协变判别式(CDA)以及离散增量结合支持向量机(SVM)方法,通过提取蛋白质一级序列中多种特征参数,分别对它们在细胞中的亚核定位和亚细胞定位进行预测。论文的主要研究工作概括如下:
(1)首次利用相异有限系数(DC)算法和离散增量结合协变判别式的(ID CDA)算法两层分类器对核蛋白的亚核定位进行了预测。在DC算法中,选取全序列的氨基酸组份和氨基酸序列亲疏水性二肽组份为信息参数,ID CDA算法中选取N端氨基酸1-gap二肽组份和氨基酸2-gap二肽组份为信息参数,对单定位蛋白质总预测成功率为75.4%,多定位蛋白质总预测成功率为80.4%。单定位蛋白质总预测成功率比Lei-SVM方法高8.9%,多定位蛋白质总预测成功率比Lei-SVM方法高15.2%。在序列相似性小于等于25%时,该方法也取得了较高的预测成功率。
(2)通过选取氨基酸组份和赝氨基酸组份为信息参数,首次利用离散增量结合支持向量机的(ID SVM)算法,预测真核植物和非植物蛋白质的亚细胞定位,Jackknife检验总预测成功率分别是88.3%和92.4%,预测结果好于现有的其它方法对该数据库的预测结果。文章中对单一参数的离散增量的预测结果和离散增量结合支持向量机的预测结果作了详细比较,并对多种参数组合利用ID SVM算法进行预测。结果表明,利用多参数的适当组合,采用ID SVM算法可以得到较好的预测结果。
(3)以12类真核生物为研究对象,对12类真核生物蛋白质分别选取全序列氨基酸组份、氨基酸二肽组份,采用离散增量(ID)的方法进行预测,通过对离散增量的进一步组合,取得了较高的预测成功率。
(4)构建了小鼠蛋白质和小鼠膜蛋白两个数据库,通过选取全序列的氨基酸1-gap二肽组份,N端序列的氨基酸二肽组份为信息参数,采用离散增量结合协变判别式(ID CDA)方法对小鼠蛋白质的亚细胞定位和小鼠膜蛋白的类型进行预测,取得了较好的预测结果。
(5)分别选取全序列中氨基酸组份、氨基酸二肽组份、氨基酸序列的亲疏水性分布信息、N端和C端氨基酸二肽组份为特征参数,利用离散增量(ID)算法,对原核生物中的革兰氏阴性菌蛋白质的亚细胞定位进行预测,分别讨论了单个参数和组合参数对预测结果的影响。