应用协同学宏观方法对大进化型式及其分子机制的探讨
【摘要】:
基因组测序计划给我们提供了前所未有的海量序列数据。这为从分子水平研究后生动物的早期进化(从多细胞化到三胚层动物的大规模适应辐射)提供了很有利的条件。为了尽可能地从序列数据中挖掘信息,需要尝试包括经典的序列联配的多种统计学方法。我们首先对泛真核生物基因序列进行跨物种比对,在此基础上,我们引入最大信息原理进行序列分析,并对间断平衡假说和大进化与小进化等问题进行了讨论。我们得到了如下结论:
1.通过对六种多细胞模式生物和七种单细胞模式生物的全基因组(或转录组)比对,得到了在多细胞动物中普遍存在而在单细胞动物中广泛缺失的同源基因。这些基因很可能与后生动物的多细胞化和早期进化有密切关系。我们从中选出了一些高度保守的基因,希望通过对这些基因的个例分析(Case analysis),发现某些后生动物早期进化时分子水平的重要变化。我们发现与神经递质灭活相关的基因在后生动物中具有强而稳定的保守性而在单细胞生物中几乎完全缺失。这说明神经递质灭活系统的建立很可能是随着这类动物的起源而一起发展起来的。已有的一些关于后生动物祖先的推测认为,拥有一个简单的神经细胞/受体系统是后生动物祖先的一个重要特征。虽然目前尚未从后生动物根部的生物中克隆到神经递质转运蛋白基因,我们推测,一个这样的神经细胞/受体系统应该包括神经递质的灭活机制。依据“个体发育重演系统发育”的规律我们推测,在个体发育过程的神经系统发育期间,神经递质灭活很可能与活性依赖的突触发生有密切关系。
2.利用上面的泛真核生物基因组数据,我们引用进行最大信息原理分析CDS序列以验证DNA序列的构建是否遵循近中性理论。通过建立数学模型我们将DNA序列的进化描述为自然选择约束下随机突变的最大化的过程,并由此预测了一条CDS中四种核苷酸的统计分布。通过计算值与实际值的平均相对偏差(ARE))可以估计我们建立的模型的可靠性。先后进行过的两次计算都覆盖了真核生物域的主要分支线系。在第二次计算中,不同的情况下,有82%到99%的序列的误差在ARD<0.01水平。此结果显示,众多核苷酸通过其相互作用构建(组织)为一条功能性的CDS的过程,可以描述为自然选择压力下随机突变使基因中核苷酸分布的信息熵极大化的过程。也就是说,虽然近中性学说建立在对单个取代位点的研究之上,但是在DNA序列由单核苷酸的构建的过程中,该学说仍是一条被遵守的基本定律。
3.在MIP分析中,对每条序列可以求出其Lagrange乘子的值对某一个类群的生物可以求出其Lagrange乘子的半均值。该平均值可以表示出该类群生物在进化过程中所承受的选择压力。已有的工作显示,Lagrange乘子在不同生物类群中系统性地改变。这里我们进一步发现,包括动物、植物和子囊菌的真核生物的多细胞化过程中,Lagrange乘子趋于减少,但是对于动物早期的进化过程而言,其多细胞化到双胚层的形成过程中Lagrange乘子趋于减少,但是三胚层动物的起源过程的Lagrange乘子趋于增加。这种反常的变化很可能与三胚层动物早期进化的大规模适应辅射,即寒武纪生命爆发有关。我们尝试引入间断平衡假说来解释这种反常增加的现象。将Lagrange乘子的进化相关性描述为在线性进化过程中趋于减少、而在跳跃进化时趋于增加的过程,并给出了相应的通式。该式子可以较好的解释动物进化早期阶段的Lagrange乘子各种变化。该通式是否同样适用于其他跳跃进化或适应辐射事件的问题尚需要进一步研究。
4.以线虫和人基因组中长度在1.5KB到2.5KB的CDS序列进行MIP分析。结果显示在一个基因组内,单个基因的进化同样遵循选择压力下随机突变造成的寡核苷酸分布的信息熵极大化的规律。承受较高选择压力的基因具有较强的核苷酸短程关联以及较小的Markov熵。这项结果说明MIP分析的类平均不仅可用于物种以上的分类,而且可用在物种以下的小进化事件以及个体水平的表达差异分析。这为大进化和小进化的统一机制的研究提供了新的理论线索。