蛋白质结晶倾向性与溶液结构测定可行性的生物信息学预测
【摘要】:解析蛋白质的三维结构可促进生命科学各个领域的研究,例如蛋白质功能研究,药物筛选和设计,人类健康和疾病,以及蛋白质理性设计,等等。为此,结构基因组学拟采用高通量X-射线晶体学和NMR谱学等方法解析生物学功能重要的、代表性的蛋白质结构,然而,他们却获得了较低的结构测定成功率(~10%)。因此,为了推进结构基因组学和结构生物学的研究,本论文利用结构生物信息学方法对蛋白质结构测定的可行性进行分析和预测,以指导实验科学家进行目标蛋白质的选择。本论文共开发3个新的生物信息学方法,并分别构建了免费使用的在线网页服务器。第一章综述了结构基因组学的研究进展,介绍了结构生物信息学,包括特征值提取、特征值选择和机器学习(支持向量机)。第二章详细介绍了一种新的蛋白质结晶倾向性分析、预测和设计工具Crysalis。与其他同类生物信息学工具相比,Crysalis的优势和创新之处在于:(1)Crysalis同时具备高的预测效率和准确率,可实现组学规模的蛋白质结晶倾向性预测;(2)Crysalis是首个针对蛋白质结晶倾向性的计算分析和设计的机器学习工具,可用于提高蛋白质的结晶倾向性;(3)Crysalis提供了蛋白质结构和功能的注释信息,如结构域、保守位点、预测蛋白质二级结构、残基溶剂可及性和蛋白质无序片段,等等。第三章首先综述和评估了 9种目前可免费使用的、主流的蛋白质结晶倾向性预测工具。在此基础上,通过整合这些工具的预测结果,我们开发了元预测器CrysComb,预测性能明显提高。接着,本章详细介绍了另一种蛋白质结晶倾向性的预测工具Crysf。Crysf是基于UniProt蛋白质注释功能特征开发的机器学习工具,包含了多个版本的预测器(Crysf,Crysf_PE,Crysf_Comb和Crysf_S)。与其它9种工具相比,Crysf获得最高的预测质量,也实现了高的计算效率。第四章介绍了一种新的蛋白质NMR结构测定可行性的预测工具pNMRStr。我们开发了一种新颖的特征值编码方法DDHoSPP,描述蛋白质片段理化性质的分布性、差异性和异质性。我们的研究表明DDHoSPP特征对于蛋白质NMR结构测定可行性预测起了非常重要的作用。此外,我们发现序列末端融合的His-tag会严重影响模型的预测,导致预测的偏向性。因此,我们开发了 5种pNMRStr预测器,去除存在严重预测偏向性的预测器pNMRStr_M和pNMRStr_H。最终,pNMRStr工具仅保留了pNMRStr_MHr、pNMRStr_Hf和pNMRStr_Hr三种版本预测器,分别适用于混合的、His-tag-free和His-tagged蛋白质数据的NMR结构测定倾向性预测。pNMRStr工具在两个应用实例中表现出色。第五章对全文进行总结,并对本论文的研究内容进行展望。