蛋白质相互作用网络的模块结构辨识
【摘要】:
越来越多的证据表明,生物分子不是以单体的形式进行工作,而通常是通过由相互作用的模块组成的分子网络进行工作的。辨识蛋白质相互作用网络的模块结构对理解生物系统的结构和功能意义十分重大。将度的概念从单个节点扩展到子图,提出了一种规范而灵活的模块定义。结合该模块定义和一种基于G-N算法的新型凝聚算法,开发了有效辨识蛋白质相互作用网络模块结构的工具ModuleSpider。
把ModuleSpider应用于DIP数据库的酵母核心蛋白质相互作用数据集,获得了97简单模块。对模块中的蛋白质的组成分析表明,ModuleSpider模块中富含在功能上和生物过程上有着密切关系的蛋白质。模块中蛋白质的生物功能相关性检验结果表明,绝大部分ModuleSpider模块显示出非常显著的GO生物过程条目丰度,这些模块的最低GO条目共同出现P-value的平均值低至3.18E-7。用ModuleSpider模块定义与Radicchi等人的强、弱模块定义得到的结果的比较分析表明,ModuleSpider模块的最低GO条目共同出现P-value平均值均明显低于强、弱模块。另外,对模块定义的关键参数取值的讨论表明,当模块定义严格性调整系数α=1.25时,ModuleSpider辨识得到的模块最具有生物显著性。进一步,ModuleSpider算法能够获得模块之间的相互关系,这种模块关系图提供了高层次的不同功能模块的关系提示。
另外,还对序列相似性比对算法进行了深入的研究。在对著名序列比对算法Blast的深入分析基础上,实现了一个类似Blast功能的快速序列比对程序MyBlast,并且成功应用于识别基因序列的真实EST匹配以及外显子区域。用标准测试数据集HMR195中的人类基因序列对其性能进行测试时,采用了MyBlast核心算法的EDSAc程序的专一性(Sp)和敏感度(Sn)均优于国际同类软件TAP。