蛋白质序列的深度建模及其应用
【摘要】:蛋白质的生物功能由蛋白质的三维结构决定,而三维结构是由蛋白质序列决定的。在三维结构未知的情况下,分析预测蛋白质分子结构,可帮助人们快速认识蛋白质功能、研究生物病理原因、减少生物实验量等。深度学习方法已在多个领域成功应用,本课题用深度学习方法,从蛋白质一级序列出发,建立深度学习模型,对蛋白质结构相关的典型属性:溶剂可及性、二级结构、骨架二面角和相互作用位点开展预测研究。本文主要工作如下:1.蛋白质溶剂可及性预测。提出一个两阶段的单模型策略:先训练回归模型,预测相对可及表面积;再根据指定阈值,对预测结果再进行分类划分。在双向递归神经网络节点信息融合时,提出了双向节点的融合算子,提升了信息融合能力。实验表明使用三个不同融合算子的SDBRNN模型提高了溶剂可及性预测性能。2.蛋白质二级结构识别。结合递归神经网络长范围特征提取优势和卷积神经网络局部特征提取特点,面向多分类问题,设计深度学习模型CRRNN,捕获序列隐含的局部特性和长程特性。为了解决残差网络跨层合并输入带来模型参数激增的问题,用一维一卷积步的卷积神经网络转换降维。本文中还训练了 10个独立训练的单模型,组合成多模型集成学习。3.蛋白质相互作用位点预测。蛋白质链上作用位点残基稀少,针对该不平衡分类问题,本文提出了三个改进策略来调整不平衡性:面向蛋白质链整体选择的策略来调整训练集;结合代价敏感性学习在分类函数中增加惩罚因子;联合溶剂可及性预测进行共同学习。对LSTM模型进行简化,提出轻量级的SLSTM网络作为双向递归网络计算节点,改善训练样本偏少问题。DLPred模型在平衡性指标F-measure提升的同时,提升了预测准确率。4.蛋白质溶剂可及性、二级结构、骨架二面角的多任务联合学习。基于上述研究基础,提出了一个双通道策略的深度学习模型CRRNN2,多任务联合学习,同时预测溶剂可及性、二级结构、骨架二面角等多个结构属性。用简化的GRU网络,作为双向递归神经网络的网络节点,用DenseNet结构搭建三层的双向递归神经网络通道,用改进的Google Inception搭建卷积神经网络通道。本文的主要贡献在于面向蛋白质序列建立深度学习模型,针对结构属性预测需要,面向计算问题,建立了回归模型、分类模型、不平衡数据下的深度学习模型、多任务学习模型等。在建模过程中,提出了面向双向递归神经网络的融合算子,融合算子成功应用在本文多个深度学习模型中;基于模型泛化能力和参数规模的考量,设计出改进的SLSTM网络和GRU2网络,并改进了残差网络的连接方式;验证了集成学习在深度学习中的有效性。这些方法的研究和所取得的成果有助于深度学习在蛋白质结构方面进一步研究,对今后基于深度学习的生物信息学问题的建模同样具有重要的参考价值。
|
|
|
|
1 |
吴晓明,宋长新,王波,程敬之;隐马尔可夫模型用于蛋白质序列分析[J];生物医学工程学杂志;2002年03期 |
2 |
李鸣,杨晓峰,王虹,秦红星,郭仁;微机快速确定核酸及蛋白质序列的同源性[J];中国医学科学院学报;1988年03期 |
3 |
王槐春;王嘉玺;吴加金;;电子计算机在核酸和蛋白质序列分析中的应用[J];国外医学(分子生物学分册);1989年06期 |
4 |
汤丽华;;基于小波分析的蛋白质序列分形研究[J];科技信息;2009年33期 |
5 |
殷娟娟;;基于数据挖掘的蛋白质序列分析研究[J];信息技术与信息化;2017年06期 |
6 |
贾美多;杨闫;张盈盈;李春;;蛋白质序列基于k-字的数值刻画及应用[J];浙江农业学报;2014年06期 |
7 |
任力锋,张波,刘辉;蛋白质序列信息的提取与蛋白质结构预测[J];北京生物医学工程;2005年03期 |
8 |
周大为;李炜疆;;利用蛋白质序列模式识别改善谷氨酸棒杆菌基因组注释[J];工业微生物;2014年03期 |
9 |
张玉岩;闻佳;;一种新的蛋白质序列二维图形表示方法及应用[J];绥化学院学报;2013年11期 |
10 |
潘以红;钱东;朱平;;蛋白质序列图形变换及其相似性聚类分析[J];生命科学研究;2018年03期 |
11 |
张堃;赵静静;唐旭清;;蛋白质序列的矩阵图谱表达[J];生命科学研究;2011年02期 |
12 |
肖奕;冯建辉;黄延昭;;对称蛋白质序列与结构关系研究[J];生命科学;2010年11期 |
13 |
杨柳;于晓庆;马影;李春;;蛋白质序列的一类新的图形表示[J];黑龙江生态工程职业学院学报;2008年06期 |
14 |
吕洪林;;粒计算理论下的进化树建模与应用探讨[J];白城师范学院学报;2019年10期 |
15 |
王槐春;建立蛋白质序列的同源性[J];生物化学与生物物理进展;1991年04期 |
16 |
张玲;高洁;;甲型流感病毒蛋白质序列的长记忆模型[J];江南大学学报(自然科学版);2012年06期 |
17 |
王发生,罗敏;在网络上作蛋白质序列分析[J];生命的化学;2001年01期 |
18 |
刘宏德;孙啸;;蛋白质序列的特征周期研究[J];生物物理学报;2008年02期 |
19 |
许瑞珍,李明锋,陈寒林,黄延昭,肖奕;与对称性相关的蛋白质序列-结构关系[J];科学通报;2005年06期 |
|