收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于机器学习及统计计算模型的膜蛋白结构预测

殷曦  
【摘要】:蛋白质在生命活动中扮演着极为重要的角色,在生物体结构中发挥着关键作用。蛋白质广泛分布于细胞结构中,以蛋白质大分子的形式通过不同的折叠构象表达了多样的生物遗传基因。膜蛋白是作为一种重要的蛋白质类型主要存在于生物膜中,由于其结构的复杂性,目前已解决结构的膜蛋白数量非常少,在蛋白质数据库中膜蛋白所占比例不足蛋白质组总数的30%。但是膜蛋白分布在生物膜中,在分子运输、离子交换、膜的锚定、药物靶点以及药物设计等方面中有着至关重要影响,接近60%的药物作用在膜蛋白上。因此,解决膜蛋白的结构具有深远的意义。结构相似的蛋白质往往具有相似的功能,因此,获取蛋白质的结构对解析蛋白质功能机理具有重要的作用。在目前的后基因组时代,蛋白质数据库中所收录的序列数目已经达到百万级别并在迅速扩充,与之相比,而通过实验的方法已解决结构的蛋白质数量则存在巨大差距。因此,对获取更多蛋白质结构的需求尤为紧迫。目前测定蛋白质的结构可以通过传统的实验方法如X射线、核磁共振(NMR)和冷冻电镜(Cryo-EM)等方式。由于膜蛋白的结构复杂性,特别是其镶嵌在脂类层的跨膜结构具有疏水特性,利用实验的方法解决蛋白质结构时难以结晶,而且这种方式有着成本高昂,耗时长的弊端,所以为计算的方法预测蛋白质结构提供了广阔的发展空间。近些年来,随着模式识别研究领域的发展,基于机器学习和人工智能的方法得到了深入的研究和广泛的应用,其中,利用模式识别理论与方法预测蛋白质结构在生物信息学领域取得了一定的成果。利用当前蛋白质数据库中已解决结构的蛋白质数据为样本,按照一定的标准筛选并组织数据集,根据已知结构的注释信息建立训练数据的样本和类标,为实现机器学习算法提供了样本数据。与此同时,通过分析和研究蛋白质的结构及其特性,提取多种蛋白质特征,组建训练和测试数据集,然后运用机器学习算法训练预测模型。基于评价指标和交叉验证的方法检验算法流程的性能,从而实现对目标蛋白质的结构预测。另一方面,基于蛋白质残基特异性的统计计算和分析的方法,也取得了重要的进展,此类方法不需要训练过程,而是对大规模、高质量的样本进行统计计算。如同源性多重序列比对的方法,通过统计和计算共进化特征,得到蛋白质序列中残基之间的进化保守性关联信息。目前的这些方法在蛋白质结构预测方面虽然取得了一定进展,但还存在一定局限性和提升空间。在预测精确度、蛋白质结构特异性、不规则复杂空间结构、预测算法鲁棒性和蛋白质类型适用性方面还需提高,而且有些预测模型没有考虑蛋白质的结构特性以及氨基酸之间的局部关联特征。基于诸多方面,为了进一步提升和改善蛋白质结构预测方法的精度和性能,针对蛋白质序列的生物和结构特性,本文在β-桶状蛋白质(β-barrels)拓扑结构预测、残基相互作用以及β-链(β-strand)之间的关联性计算等方面进行了深入研究,并创新了预测模型的构建以及方法流程的设计。本文的主要贡献由以下几个部分构成:(1)通过从最新的蛋白质数据库(Protein Data Bank,PDB)筛选高分辨率蛋白质样本,构建高质量基准数据集。为排除数据集中蛋白质同源性的影响,去除相似度冗余,数据集中任意两条序列的同源性降低至30%,使得数据集涵盖更多的蛋白质超家族,从而使预测模型具有更为广泛的适用性,覆盖更多的蛋白质类型。通过组建高质量基准数据集进行训练和测试预测模型,其中,所构建的数据集相对于目前其他的方法,具有更大规模、覆盖蛋白质超家族更广、具高精度的蛋白质结构类标等特点,为建立预测模型提供更准确可靠的基准样本集及类别属性。(2)在特征提取方面,基于多视角蛋白质特征提取结合多重序列比对等方法,挖掘隐含的氨基酸进化保守性以及关联一致性信息。对多重同源蛋白质序列的结构特异性进行统计计算,利用基于优化的滑动窗口的方法将氨基酸结构特征与进化保守性信息进行融合,对特征矩阵采用稀疏编码算法进行抽取,达到了降低维度冗余和去除混入噪声的效果,进一步为提升预测蛋白质拓扑结构的性能。(3)本文提出了链学习的方法对膜蛋白β-桶状蛋白质(β-barrels)拓扑结构进行预测。克服了目前方法处理复杂特殊结构以及残基状态连续性等预测精确度较低的问题,本文通过融合局部序列中相邻残基之间的关联特性,挖掘隐含的状态连续性约束信息,与全局序列特征相结合,再通过构建两层分类器的方式,对上一层模型的输出结果进行优化,解决了目前的方法独立预测残基状态所带来的输出突变的问题,同时对预测概率曲线起到平滑作用,显著提高总体预测准确率。(4)在预测β-桶状蛋白跨膜结构的后处理阶段,提出了动态阈值的方法,对预测得到的概率曲线进行划分。这种方法是基于优化的初始阈值之上,根据统计的β-链(β-strand)长度分布,有针对性的处理由短的卷曲结构(Loop)连接的β-strand,能够识别β-转角(β-turn)和β-凸起(β-bugle)等不规则特殊的折叠片段,有效的去除易导致误分类的影响因素。经过对蛋白质结构的特异性分析,采用动态阈值分割的方法,对预测结果进行后处理,提升了预测模型的广泛适用性。(5)在基于预测膜蛋白拓扑结构的基础之上,预测β-桶状蛋白质关联图、β-strand结构相互作用关系,提出了融合共进化关联计算与机器学习的方法,实现了算法的优势互补,覆盖不同残基关联模式,提高了模型的泛化性能。在特征提取方面,采用了基于深度学习的神经网络框架,构建多层自动编码器,挖掘残基特征隐含的进化关联特性,实现高维特征的低维表达,同时,起到了对特征空间降维和去噪的作用,进一步提高了预测模型的性能。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 ;降低机器学习门槛的六大工具[J];电脑知识与技术(经验技巧);2019年10期
2 胡思润;杨晓旭;宋靖华;;基于机器学习的城市生成方法研究[J];智能建筑与智慧城市;2019年11期
3 李兵;林文钊;罗峥尹;;基于机器学习的智慧农业决策系统设计与实现[J];信息与电脑(理论版);2018年24期
4 舒娜;刘波;林伟伟;李鹏飞;;分布式机器学习平台与算法综述[J];计算机科学;2019年03期
5 刘传会;汪小亚;郭增辉;;机器学习在反洗钱领域的应用与发展[J];清华金融评论;2019年04期
6 孟雨;;机器学习让计算机更智能[J];计算机与网络;2019年14期
7 高华川;;机器学习在经济学中的应用[J];纳税;2019年24期
8 李阳;;机器学习在网络空间安全研究中的应用分析[J];电脑知识与技术;2019年24期
9 朱辉;;机器学习在企业级场景中的实践与探讨[J];中国建设信息化;2018年03期
10 彭传意;;机器学习——我们该如何与机器竞争[J];数字通信世界;2018年01期
11 陈轶翔;埃里克·布伦乔尔森;汤姆·米切尔;;机器学习的能力范围及其对劳动力的影响[J];世界科学;2018年04期
12 赵长林;;机器学习即服务[J];网络安全和信息化;2017年10期
13 ;机器学习作用于信息安全的五大顶级案例[J];网络安全和信息化;2018年01期
14 吴承杨;;2018年来说说机器学习[J];软件和集成电路;2018年05期
15 宋雯博;;大数据下的机器学习的应用趋势[J];电脑迷;2018年09期
16 吴炜;孙强;;应用机器学习加速新材料的研发[J];中国科学:物理学 力学 天文学;2018年10期
17 宋明成;;机器学习隐私的安全隐患[J];计算机与网络;2018年16期
18 游思奇;;解读机器学习与深度学习的发展及应用[J];计算机产品与流通;2018年05期
19 黄乃静;于明哲;;机器学习对经济学研究的影响研究进展[J];经济学动态;2018年07期
中国重要会议论文全文数据库 前10条
1 王珏;;归纳机器学习[A];2001年中国智能自动化会议论文集(上册)[C];2001年
2 王衍鲁;张利会;张淑洁;石洁茹;王鹏;;大学新生学校适应的个体与环境因素探究:基于机器学习的考察[A];第二十届全国心理学学术会议--心理学与国民心理健康摘要集[C];2017年
3 张长水;;大数据机器学习[A];2015年中国自动化大会摘要集[C];2015年
4 何琳;侯汉清;;基于标引经验和机器学习相结合的多层自动分类[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
5 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
6 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
7 吴沧浦;;智能系统与机器学习的新领域[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
8 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 ;基于机器学习的大数据防诈骗能力研究与应用[A];2018中国信息通信大会论文摘要集[C];2018年
10 ;基于机器学习的影响感知无线根因问题快速定位研究[A];2018中国信息通信大会论文摘要集[C];2018年
中国博士学位论文全文数据库 前10条
1 殷曦;基于机器学习及统计计算模型的膜蛋白结构预测[D];上海交通大学;2017年
2 杨静;蛋白质残基相互作用预测及其在结构建模中的应用研究[D];上海交通大学;2018年
3 王磊;基于机器学习的药物—靶标相互作用预测研究[D];中国矿业大学;2018年
4 张庆;钙钛矿型功能材料的基因组工程研究[D];上海大学;2018年
5 管月;医学肿瘤影像分类算法研究及其在肝癌上的应用[D];南京大学;2018年
6 郝小可;基于机器学习的影像遗传学分析及其应用研究[D];南京航空航天大学;2017年
7 施建明;基于机器学习的产品剩余寿命预测方法研究[D];中国科学院大学(中国科学院遥感与数字地球研究所);2018年
8 陈再毅;机器学习中的一阶优化算法收敛性研究[D];中国科学技术大学;2018年
9 陆海进;Zr合金热动力学研究及机器学习[D];上海大学;2018年
10 戴望州;一阶逻辑领域知识与机器学习的结合研究[D];南京大学;2019年
中国硕士学位论文全文数据库 前10条
1 孟圣然;基于机器学习的机械产品结构建模技术研究[D];杭州电子科技大学;2019年
2 华琪;基于机器学习的智能建筑行为建模与预测方法研究[D];上海交通大学;2017年
3 杨浩;基于机器学习的白带菌类光学图像识别算法研究[D];电子科技大学;2019年
4 王维;心音诊断信息自动识别方法研究[D];电子科技大学;2019年
5 徐安;基于机器学习的慢性疾病预测关键技术研究[D];电子科技大学;2019年
6 宋同峰;基于机器学习的肾病辅助诊断系统的研究[D];青岛科技大学;2019年
7 王婧;基于核机器学习的阿尔兹海默病早期诊断算法研究[D];曲阜师范大学;2019年
8 马小凤;机器学习在学生通过率预测中的应用研究[D];西南大学;2019年
9 黄雨迪;基于机器学习的MIMO系统收发机设计理论与方法[D];电子科技大学;2019年
10 应豪;基于机器学习的光纤信道均衡技术研究[D];电子科技大学;2019年
中国重要报纸全文数据库 前10条
1 CIO.com资深作家 Clint Boulton 编译 Charles;领先一步:机器学习的10个成功案例[N];计算机世界;2018年
2 Bob Violino 编译 Charles;盲目冒进:机器学习的5个失败案例[N];计算机世界;2018年
3 本报驻波士顿记者 侯丽;深入挖掘机器学习潜力[N];中国社会科学报;2019年
4 王方 编译;菌自何方 机器学习早知道[N];中国科学报;2019年
5 Matt Asay 编译 Monkey King;为什么机器学习没有捷径可循?[N];计算机世界;2019年
6 本报记者 操秀英;当量子计算遇到机器学习会碰撞出什么火花?[N];科技日报;2019年
7 彭博企业数据业务全球负责人 Gerard Francis;金融数据质量决定机器学习时代的投资回报[N];计算机世界;2019年
8 Isaac Sacolick 编译 Charles;关于机器学习的5个要点[N];计算机世界;2019年
9 记者 张梦然;全新算法助机器学习抵抗干扰[N];科技日报;2019年
10 惠赞瑾;《科学向左,科幻向右》:机器学习即将成为现实[N];中国会计报;2019年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978