基于网络拓扑的蛋白质互作预测及相关内容的研究
【摘要】:蛋白质作为生命的物质基础,很少以单独个体进行活动,而是以一种非常明确的方式相互作用(互作)来协调几乎所有的细胞过程。因此,蛋白质互作分析是理解细胞组织和分子功能的基础。蛋白质网络是由直接的物理互作构成,能够代表一个具体的生物学系统。它可以揭示器官功能,了解组织结构,从而确定人类疾病的致病机理和寻找基因治疗的药物靶点。高通量的生物学实验技术提供了大量的蛋白质互作数据,为蛋白质网络的研究提供了数据支持。本文利用网络拓扑属性,整合分子功能和疾病相关信息,能够确定蛋白质网络中隐藏的功能模块和疾病信息。目前,基于蛋白质互作网络预测蛋白质互作,确定功能模块与疾病蛋白质的研究主要面临两方面问题:(一)基于不可靠的网络数据,包括噪声(假阳性互作)和缺失(假阴性互作),会误导或干扰相关研究;(二)基于不同特征、质量和数量的数据,会产生互作预测波动,预测质量和覆盖率有待提高,从而影响网络中的功能模块和疾病模块的完整性。本文基于已知的蛋白质互作网络,以团(极大完全子网)等网络拓扑侧度为核心,预测蛋白质互作,挖掘网络中的功能模块,预测疾病蛋白质。首先,提出了一种可靠蛋白质互作预测的框架模型来修补蛋白质互作网络,并基于该模型预测与功能模块或蛋白质复合物相关的蛋白质互作;其次,用修补后的网络挖掘相关模块;最后,基于疾病模块预测疾病蛋白质。本文解决了在含有假阳性和假阴性互作数据的网络中,预测蛋白质互作波动的问题,并利用扩展的团更大限度的逼近实际的功能模块和疾病模块。研究的具体内容主要体现在以下四个方面:一、提出一种基于宽进严出策略的预测可靠蛋白质互作的框架模型。首先,设定已有的预测蛋白质互作的计算方法的预测可靠性等级;然后,根据预测方法之间的兼容性和互补性原则,整合若干子方法;最后,通过预测和评估两个过程获取最终的蛋白质互作预测集。每个预测的蛋白质互作均满足多种生物学意义,其预测可靠性更高。该框架模型为本文基于蛋白质互作网络预测蛋白质互作的具体方法提供基础。二、分别提出基于宽进严出框架的显性和隐性预测蛋白质互作的方法。在显性模式下,设计了两种预测方法。第一种方法完全符合宽进严出模型标准,针对不同特征的互作数据集,包括含有大量噪声的数据集,均能稳定的获取可靠的蛋白质互作预测;第二种方法提供了简化使用宽进严出框架的实例,利用预测的互作参与新的预测过程,可以获取更多的蛋白质互作;同时,通过使用不同的基因本体论修正规则,分别获得质量和数量占优的预测集。在隐性模式下,针对已经发现复合物的不同拓扑结构特征,分别提出一种基于桥分割复合物的预测算法和一种自适应k核聚类剪枝预测算法。前者针对多子网结构的复合物,可获较高准确率的互作预测;后者具有通用性,能够较好适应各种不同结构的复合物。这两种算法预测的蛋白质互作与功能模块和复合物相关,有助于发现更准确的功能模块和疾病模块。三、提出一种基于候选集竞争方法来确定网络中潜在团。本文在扩展团的基础上,挖掘候选集中结点间的隐藏信息,采用贪心方法,竞争挑选最大可能的候选结点来扩展团。并且,候选集合的确定不是静态过程,而是根据当前扩展的团,动态生成,继续竞争挑选候选结点来扩展团。以此类推,直至确定最终的潜在团。潜在团中包含的未知蛋白质互作,绝大部分可通过相关的验证。挖掘的潜在团接近于实际真实的团,具有较好的生物学意义,克服了网络数据缺失的影响。四、提出一种在蛋白质网络中基于团骨架预测疾病蛋白质的方法。首先,利用扩展团的方法挖掘潜在团;然后,根据已知疾病蛋白质在团中的显著性确定疾病相关的团,从而预测疾病蛋白质;最后,利用基因本体论注释为预测的蛋白质打分,决定最终的疾病蛋白质。该方法能够克服原始数据中假阳性和假阴性数据的干扰。本文通过基因型和表型的关联,可知预测的疾病蛋白质保持较高准确率。并且,基于疾病团预测的疾病蛋白质之间,存在紧密联系,且关联复杂疾病,如各种癌症等,为揭示严重疾病的致病机理提供线索。第一项研究内容属于框架模型,为本文的整体研究提供一个指导性框架;第二项研究内容提供蛋白质互作预测的方法,属于网络数据的修补,为后续网络模块的挖掘打下基础;第三项研究内容利用潜在团挖掘网络中的模块;第四项研究内容利用确定网络模块的方法寻找疾病模块并预测疾病蛋白质。本文通过对网络数据的修补,可以较好地解决网络拓扑结构易受假阴性和假阳性数据干扰的问题;并且,预测的蛋白质互作同功能模块和疾病模块紧密关联,从而可以确定相对完整的两种网络模块,进而更加准确的解决相关的生物学问题。