收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

蛋白质序列的深度建模及其应用

张步忠  
【摘要】:蛋白质的生物功能由蛋白质的三维结构决定,而三维结构是由蛋白质序列决定的。在三维结构未知的情况下,分析预测蛋白质分子结构,可帮助人们快速认识蛋白质功能、研究生物病理原因、减少生物实验量等。深度学习方法已在多个领域成功应用,本课题用深度学习方法,从蛋白质一级序列出发,建立深度学习模型,对蛋白质结构相关的典型属性:溶剂可及性、二级结构、骨架二面角和相互作用位点开展预测研究。本文主要工作如下:1.蛋白质溶剂可及性预测。提出一个两阶段的单模型策略:先训练回归模型,预测相对可及表面积;再根据指定阈值,对预测结果再进行分类划分。在双向递归神经网络节点信息融合时,提出了双向节点的融合算子,提升了信息融合能力。实验表明使用三个不同融合算子的SDBRNN模型提高了溶剂可及性预测性能。2.蛋白质二级结构识别。结合递归神经网络长范围特征提取优势和卷积神经网络局部特征提取特点,面向多分类问题,设计深度学习模型CRRNN,捕获序列隐含的局部特性和长程特性。为了解决残差网络跨层合并输入带来模型参数激增的问题,用一维一卷积步的卷积神经网络转换降维。本文中还训练了 10个独立训练的单模型,组合成多模型集成学习。3.蛋白质相互作用位点预测。蛋白质链上作用位点残基稀少,针对该不平衡分类问题,本文提出了三个改进策略来调整不平衡性:面向蛋白质链整体选择的策略来调整训练集;结合代价敏感性学习在分类函数中增加惩罚因子;联合溶剂可及性预测进行共同学习。对LSTM模型进行简化,提出轻量级的SLSTM网络作为双向递归网络计算节点,改善训练样本偏少问题。DLPred模型在平衡性指标F-measure提升的同时,提升了预测准确率。4.蛋白质溶剂可及性、二级结构、骨架二面角的多任务联合学习。基于上述研究基础,提出了一个双通道策略的深度学习模型CRRNN2,多任务联合学习,同时预测溶剂可及性、二级结构、骨架二面角等多个结构属性。用简化的GRU网络,作为双向递归神经网络的网络节点,用DenseNet结构搭建三层的双向递归神经网络通道,用改进的Google Inception搭建卷积神经网络通道。本文的主要贡献在于面向蛋白质序列建立深度学习模型,针对结构属性预测需要,面向计算问题,建立了回归模型、分类模型、不平衡数据下的深度学习模型、多任务学习模型等。在建模过程中,提出了面向双向递归神经网络的融合算子,融合算子成功应用在本文多个深度学习模型中;基于模型泛化能力和参数规模的考量,设计出改进的SLSTM网络和GRU2网络,并改进了残差网络的连接方式;验证了集成学习在深度学习中的有效性。这些方法的研究和所取得的成果有助于深度学习在蛋白质结构方面进一步研究,对今后基于深度学习的生物信息学问题的建模同样具有重要的参考价值。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 吴晓明,宋长新,王波,程敬之;隐马尔可夫模型用于蛋白质序列分析[J];生物医学工程学杂志;2002年03期
2 李鸣,杨晓峰,王虹,秦红星,郭仁;微机快速确定核酸及蛋白质序列的同源性[J];中国医学科学院学报;1988年03期
3 王槐春;王嘉玺;吴加金;;电子计算机在核酸和蛋白质序列分析中的应用[J];国外医学(分子生物学分册);1989年06期
4 汤丽华;;基于小波分析的蛋白质序列分形研究[J];科技信息;2009年33期
5 殷娟娟;;基于数据挖掘的蛋白质序列分析研究[J];信息技术与信息化;2017年06期
6 贾美多;杨闫;张盈盈;李春;;蛋白质序列基于k-字的数值刻画及应用[J];浙江农业学报;2014年06期
7 任力锋,张波,刘辉;蛋白质序列信息的提取与蛋白质结构预测[J];北京生物医学工程;2005年03期
8 周大为;李炜疆;;利用蛋白质序列模式识别改善谷氨酸棒杆菌基因组注释[J];工业微生物;2014年03期
9 张玉岩;闻佳;;一种新的蛋白质序列二维图形表示方法及应用[J];绥化学院学报;2013年11期
10 潘以红;钱东;朱平;;蛋白质序列图形变换及其相似性聚类分析[J];生命科学研究;2018年03期
11 张堃;赵静静;唐旭清;;蛋白质序列的矩阵图谱表达[J];生命科学研究;2011年02期
12 肖奕;冯建辉;黄延昭;;对称蛋白质序列与结构关系研究[J];生命科学;2010年11期
13 杨柳;于晓庆;马影;李春;;蛋白质序列的一类新的图形表示[J];黑龙江生态工程职业学院学报;2008年06期
14 吕洪林;;粒计算理论下的进化树建模与应用探讨[J];白城师范学院学报;2019年10期
15 王槐春;建立蛋白质序列的同源性[J];生物化学与生物物理进展;1991年04期
16 张玲;高洁;;甲型流感病毒蛋白质序列的长记忆模型[J];江南大学学报(自然科学版);2012年06期
17 王发生,罗敏;在网络上作蛋白质序列分析[J];生命的化学;2001年01期
18 刘宏德;孙啸;;蛋白质序列的特征周期研究[J];生物物理学报;2008年02期
19 许瑞珍,李明锋,陈寒林,黄延昭,肖奕;与对称性相关的蛋白质序列-结构关系[J];科学通报;2005年06期
中国重要会议论文全文数据库 前10条
1 光宣敏;郭延芝;李梦龙;汪夏;;支持向量机预测蛋白质序列中胱氨酸氧化还原态[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
2 李通化;孙江明;李大鹏;唐胜男;丛培盛;;从蛋白质序列到结构和功能[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
3 秦文丽;李益洲;李娟;余乐正;郭延芝;李梦龙;;基于蛋白质序列信息的信号肽上有害非同义单核苷酸多态性的预测[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
4 肖奕;;蛋白质序列的对称性[A];第十次中国生物物理学术大会论文摘要集[C];2006年
5 陈文理;庞小峰;;LC/MS技术在蛋白质序列检测上的应用[A];第十次中国生物物理学术大会论文摘要集[C];2006年
6 郭延芝;余乐正;李梦龙;;利用蛋白质序列信息预测蛋白质相互作用[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
7 涂四利;方伟武;蔡旭;;线粒体基因组中最长保守序列的分析及其意义[A];中国运筹学会第七届学术交流会论文集(中卷)[C];2004年
8 郭延芝;文志宁;李梦龙;;基于序列信息的蛋白质功能预测[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
9 熊文炜;李通化;;生物信息统计预测中新编码方法的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
10 谢建平;徐建平;陆飞;;浅论申请蛋白质序列专利的权利要求范围[A];中国生物工程学会第三次全国会员代表大会暨学术讨论会论文摘要集[C];2001年
中国博士学位论文全文数据库 前10条
1 张步忠;蛋白质序列的深度建模及其应用[D];苏州大学;2019年
2 陈俊杰;基于机器学习的蛋白质远同源性检测方法研究[D];哈尔滨工业大学;2018年
3 田昆;基因序列和蛋白质序列分类问题研究[D];清华大学;2017年
4 穆增超;蛋白质序列的图形表示与特征提取[D];山东大学;2018年
5 刘亮伟;木聚糖酶蛋白质序列分析、分子进化和分子模拟[D];江南大学;2005年
6 吴自凯;信息度量的蛋白质序列、结构、质谱数据研究[D];大连理工大学;2007年
7 林卫中;蛋白质序列离散灰色模型及其在药物开发中的应用研究[D];东华大学;2013年
8 王栋;蛋白质序列的并行分类方法研究[D];天津大学;2010年
9 徐海松;蛋白质序列中的折叠和去折叠信息[D];北京工业大学;2011年
10 张丽娜;基于机器学习的蛋白质类别及蛋白质-配体相互作用预测研究[D];山东大学;2017年
中国硕士学位论文全文数据库 前10条
1 张颖婕;基于支持向量机的蛋白质序列信息提取及亚细胞定位研究[D];云南大学;2019年
2 刘清华;蛋白质序列信息提取方法及亚细胞定位预测研究[D];云南大学;2018年
3 连秋雨;基于多核学习的蛋白质序列分类问题的研究与应用[D];电子科技大学;2019年
4 赵南;蛋白质亚细胞定位预测研究[D];南京农业大学;2017年
5 何柳;氨基酸的分布式表示方法及其在蛋白质序列分析中应用[D];吉林大学;2019年
6 王磊;基于位置序列的蛋白质序列相似性分析及其应用[D];西北农林科技大学;2018年
7 李易禅;蛋白质序列系统发育树似然估计的高性能计算方法研究[D];北京化工大学;2018年
8 王华;蛋白质序列的相似性比较及聚类的数学方法[D];大连交通大学;2018年
9 黄嘉禾;一类广义迭代图形表示在蛋白质序列分析中的应用[D];浙江理工大学;2019年
10 邵丽芬;基于深度学习的蛋白质序列分类问题的研究与应用[D];电子科技大学;2018年
中国重要报纸全文数据库 前2条
1 荐文;专利保护什么[N];医药经济报;2001年
2 张亚东;“交点”上的舞蹈[N];计算机世界;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978