收藏本站
《河南科技大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于平衡分类算法的蛋白质二级结构预测

李宁波  
【摘要】:蛋白质在生命过程中起着非常关键的作用,是生命活动的物质承担者。而蛋白质的结构决定了其功能,因此通过蛋白质结构预测其在生命过程中的功能非常重要。蛋白质结构分为四个层次:一级结构是指蛋白质序列的氨基酸残基排列;二级结构是指蛋白质多肽链上的局部空间构象(螺旋helix、片层Stand和卷曲coil);三级结构蛋白质多肽链上所有原子的空间位置;而拥有多条多肽链的蛋白质还具有四级结构,也就是多条多肽链的相对位置。与蛋白质功能直接相关的是蛋白质的三级结构,然而本文很难直接获取蛋白质的三级结构信息,传统的物理化学检测方法耗时耗力,很难胜任,直接从蛋白质一级序列信息预测蛋白质三级结构又及其困难,因此蛋白质二级结构预测作为一级结构与三级结构的桥梁存在广泛的前景。不过由于蛋白质二级结构中片层结构含量普遍较低,加上传统机器学习分类器无法采集蛋白质一级结构中位点远端的相互作用,使得片层结构预测率不足,直接影响蛋白质二级结构预测的效果。本文试图改进已有的PSIPRED算法(一种基于人工神经网络的分类算法,以序列的位置特异性得分矩阵为样本输入),引入平衡的分类机制,使得算法预测更为平衡、有效,最后应用于蛋白质三级结构中蛋白质结构类的预测。本文做出的改进尝试及其创新点如下:1.尝试四种改进的策略,分别是:改变神经网络的输入编码,引入更多与远端相互作用相关的序列信息,例如残基分子量大小、等电点、亲水性等;采取平衡的抽样策略,在训练过程中对含量较低的结构重复抽样;在训练过程中采用加权的代价函数;对神经网络的输出进行加权评估以平衡分类器的输出。最终发现,采用对神经网络输结果进行加权的策略最为有效,本文在改进的CB513数据集上采用8折交叉验证得到的总体准确率为74.28%,相应的beta-sheet准确率为63.73,比原始方法高出2.34个百分点。2.以已经预测的蛋白质二级结构的混沌游戏表示chaos games representation(CGR)作为蛋白质结构类预测(structural classes prediction)的输入特征交于神经网络进行蛋白质结构类的预测。最终在Astral40数据集上获得了71%的准确率,比直接用一级序列信息的CGR方法高出许多。本文采用的方法能够较为有效地预测蛋白质的结构类。
【学位授予单位】:河南科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:Q51;TP183

【参考文献】
中国期刊全文数据库 前1条
1 隋海峰;曲武;钱文彬;杨炳儒;;基于混合SVM方法的蛋白质二级结构预测算法[J];计算机科学;2011年10期
中国硕士学位论文全文数据库 前4条
1 张安胜;深度学习在蛋白质二级结构预测中的应用研究[D];安徽大学;2015年
2 林锦华;基于隐马尔可夫模型的蛋白质二级结构预测[D];福建农林大学;2012年
3 孙文恒;基于遗传算法和BP神经网络的蛋白质二级结构预测研究[D];兰州大学;2008年
4 于莉;基于PBIL算法的蛋白质二级结构预测方法研究[D];国防科学技术大学;2006年
【共引文献】
中国期刊全文数据库 前4条
1 余健浩;孙廷凯;;基于随机下采样和SVR的蛋白质-ATP绑定位点预测[J];现代电子技术;2015年04期
2 张蕾;徐鲁辉;郑逢斌;杨伟;;基于多度量学习方法的蛋白质二级结构预测[J];智能计算机与应用;2014年05期
3 张燕平;查永亮;赵姝;杜秀全;;基于自相关系数和PseAAC的蛋白质结构类预测[J];计算机科学与探索;2014年01期
4 朱恒军;于泓博;王发智;;小波分析和支持向量机相融合的语音端点检测算法[J];计算机科学;2012年06期
中国硕士学位论文全文数据库 前10条
1 李宁波;基于平衡分类算法的蛋白质二级结构预测[D];河南科技大学;2017年
2 朱丽娟;基于概率图模型HMM的蛋白质二级结构预测[D];河北科技大学;2017年
3 旦帅男;金柑FcSOC1同源基因克隆及其遗传转化[D];广西大学;2016年
4 李婀娜;蛋白质结构预测的噪声算法研究[D];福建农林大学;2016年
5 张轶莹;基于主成分分析法的BP神经网络基准地价评估研究[D];河南农业大学;2015年
6 杨芳;GA-LM算法改进BP神经网络模型在延安市城区基准地价更新中的应用研究[D];长安大学;2014年
7 刘倩倩;基于词频统计编码和流形学习的蛋白质二级结构预测方法研究[D];河北工业大学;2014年
8 金李灿;智能计算在蛋白质结构预测中应用研究[D];哈尔滨工程大学;2013年
9 林锦华;基于隐马尔可夫模型的蛋白质二级结构预测[D];福建农林大学;2012年
10 谢峰森;神经网络在蛋白质二级结构预测中的应用研究[D];南京航空航天大学;2012年
【二级参考文献】
中国期刊全文数据库 前3条
1 杨炳儒;谢永红;侯伟;周谆;;基于复合金字塔模型的蛋白质二级结构预测系统[J];科学通报;2009年21期
2 张晓龙;李婷婷;芦进;;基于Toy模型蛋白质折叠预测的多种群微粒群优化算法研究[J];计算机科学;2008年10期
3 闫化军;傅彦;章毅;李毅超;;神经网络方法预测蛋白质二级结构[J];计算机科学;2003年11期
中国硕士学位论文全文数据库 前10条
1 杜骞;深度学习在图像语义分类中的应用[D];华中师范大学;2014年
2 洪俊;基于Deep Learning的领域概念抽取方法研究[D];华东师范大学;2014年
3 连云涓;蛋白质二级结构预测的多核学习方法[D];上海交通大学;2013年
4 向其林;基于结构特征与伪氨基酸组成的蛋白质结构类预测研究[D];湖南大学;2012年
5 刘钦锋;蛋白质序列编码与功能预测[D];湖南大学;2011年
6 鞠红;蛋白质二级结构特征分析与相互作用预测[D];哈尔滨工业大学;2009年
7 李伟;基于分层神经网络的蛋白质二级结构预测[D];济南大学;2009年
8 朱嘉瑜;基于粒子群优化算法的隐马尔可夫模型优化及其应用研究[D];广州大学;2009年
9 孙文恒;基于遗传算法和BP神经网络的蛋白质二级结构预测研究[D];兰州大学;2008年
10 王玮;基于蛋白质疏水残基有效距离的模拟退火方法[D];贵州大学;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026