基因调控网络的构建及其动态性与稳定性研究
【摘要】:基因调控网络的研究一直是生物学中的研究热点,随着各种生物技术手段的进步,尤其是基因芯片技术的不断进步,近年来积累了大量基因组范围的基因在不同时空下的表达谱数据。这些数据通常描述了生物体中绝大部分基因在特定生命状态或过程中的表达变化情况,可以看作是基因调控网络的后验观察数据。因此,希望能提出相关的计算方法和模型,使用基因表达谱数据来推测可能的基因调控网络,并由此加深对基因调控网络的理解。
对于转录因子调控关系的研究可以作为研究基因调控网路的第一步。本文从如何收集基因表达谱样本作为转录因子和目标基因的特征,以及如何设计和训练分类器等入手,根据时序表达数据的特性,使用增强型贝叶斯分类器高效地从表达谱数据中预测出转录因子调控的目标基因。本文提出的依据转录因子的活性筛选优质的表达谱样本、对特征采取离散化联合编码等方法能够有效地协助分类器进一步提高对转录因子调控的目标基因的预测精度。
当难以收集足够的已知的转录因子调控的目标基因形成有效的训练集时,需要直接从基因表达谱数据中构建出基因调控网络。本文借用少量的已知转录因子的信息,将基因调控网络分解为内部的转录因子网络和转录因子与目标基因的相互作用,采用综合贝叶斯网络和遗传算法的方法,在线性时间复杂度和较少的空间复杂度下求解出网络结构。本文还进一步考虑了转录因子与功能的相关性,提出了一种将转录因子的作用与功能结合起来的新方法。
实际的基因调控网络是一个动态的过程,而上述基因调控网络的构建都是基于静态模型。为了更好地考察基因调控网络的动态过程,采用了布尔网络对基因调控网络的动态性进行模拟,并通过布尔网络的状态转移和最终态来考察网络的动态性。对胚胎心脏发育过程的基因调控网络的动态性模拟表明,模拟出来的动态性能够很好地和实际情况下基因表达特性相吻合。
进一步考虑到实际的基因调控网络能够在噪声干扰下保持其原有动态性,对三个具有生物意义的布尔网络模拟了噪声加入的情况,考察这些网络在噪声干扰下其动态性是否能够得以保持。更进一步地,考察了这些生物意义网络的动态稳定性在完全随机网络背景下的表现,从而得到相应的稳定显著性。
最后,本文还对两个可推广模型编写了R软件包,能够方便地应用于构建基因调控网络和分析网络的动态性。