收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

支持向量机用于蛋白质糖基化及磷酸化位点预测研究

向妍  
【摘要】:蛋白质翻译后修饰的位点识别是蛋白质组学的重要任务,传统实验识别方法耗时费力,机器学习是解决这类生物信息学问题的有效手段,其主要包括数据预处理、蛋白质序列表征、特征选择、分类器构建与模型验证五个环节。其中,序列表征是位点识别的关键。本研究结合氨基酸位置信息与卡方测验统计差表,发展了一种新的序列表征方法χ~2-pos,具有特征维数低、冗余度小、特征矩阵不稀疏等优点,并将新方法成功用于O-糖基化位点和磷酸化位点识别研究,具体结果如下:O-糖基化位点预测:糖基化是一种常见的蛋白质翻译后的修饰,O-糖基化的固定模式未知,高精度识别O-糖基化位点是机器学习面临的挑战性问题。本文以迄今最大的O-糖基化位点Steentoft数据集为基础,采用x2-pos、伪氨基酸序列进化信息PsePSSM及无方向的k间隔氨基酸对组分Undirected-CKSAAP表征序列,构建5个正负样本均衡的支持向量机分类器,经加权投票决策,独立测试的Matthews相关系数、ROC曲线下面积以及准确率分别达到了0.79、0.96、89.62%;基于此数据集,Steentoft等以预测的跨膜区、预测的表面可接触性及预测的蛋白质无序区为特征,构建正负样本均衡的支持向量机分类器,其独立预测的Matthews相关系数及准确率分别为0.71、83%;本文明显优于文献报道结果。磷酸化位点预测:磷酸化是另一种主要的蛋白质翻译后修饰,可分为激酶特异性和非激酶特异性两种类型。由于目前与激酶相关的底物信息不全,因此本文以非激酶特异性磷酸化为研究对象。以磷酸化位点Dou数据集为基础,融合χ~2-Pos与PsePSSM两类特征表征序列,构建正负样本均衡的支持向量机分类器,S/T/Y磷酸化位点的独立测试Matthews相关系数、ROC曲线下面积以及准确率分别达到了0.59/0.55/0.50,0.87/0.85/0.81,79.74%/77.68%/75.22%;基于此数据集,Dou等以预测的二级结构、预测无序区、信息熵、相对熵、溶剂可及表面积、重叠性、平均累积疏水性、K近邻共8种特征表征序列,采用支持向量机构建正负样本均衡的分类器,其S/T/Y独立预测的ROC曲线下面积分别为0.78/0.67/0.60;本研究明显优于文献报道结果。χ~2-pos在蛋白质序列表征中有广泛应用前景。


知网文化
【相似文献】
中国期刊全文数据库 前7条
1 赵洪亮,刘志敏;蛋白质糖基化工程[J];中国生物工程杂志;2003年09期
2 侯温甫,杨文鸽;糖链及其蛋白质糖基化[J];生物技术通报;2005年03期
3 张旭;蛋白质糖基化工程[J];生物工程进展;1995年02期
4 郭爽;;蛋白质糖基化分析方法简介[J];黑龙江科技信息;2013年20期
5 王家红;童玥;朱玥;田浤;高向东;;蛋白质糖基化的研究进展[J];药物生物技术;2011年01期
6 李军;杜鑫;Hosseini Moghaddam S.H.;陈玉银;;蛋白质糖基化修饰研究进展[J];科技通报;2009年06期
7 许强,王克夷;异源表达系统中蛋白质糖基化[J];生物化学与生物物理学报;1999年02期
中国博士学位论文全文数据库 前3条
1 毛秀丽;N-连接蛋白质糖基化分析用微流控芯片平台和方法研究[D];中国科学院研究生院(大连化学物理研究所);2006年
2 张旭;蛋白质糖基化工程[D];中国协和医科大学;1995年
3 史耕先;6A8基因的功能研究:蛋白质糖基化和淋巴细胞死亡[D];中国协和医科大学;2000年
中国硕士学位论文全文数据库 前1条
1 向妍;支持向量机用于蛋白质糖基化及磷酸化位点预测研究[D];湖南农业大学;2016年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978