Granger因果关系的理论及其在系统生物学中的应用
【摘要】:近年来由于现代基因芯片测试技术和多电极实验的发展以及计算新方法的不断涌现,我们能得到大量的高通量数据,如何准确可靠地从这些实验数据中发现数据之间潜在的网络结构(基因网络、蛋白质网络、代谢网络、神经网络等)是目前系统生物学的主要任务。常用的反向推导网络结构的方法有:普通微分方程(ODE)、Bayesian网络、Boolean网络和Graner因果关系。在本论文中,我们主要运用Granger因果关系的方法在时域和频域空间推导网络结构。
因果关系的方法首先由Wiener于1956年提出,1969年,Granger将Wiener提出的因果关系的思想引入到时间序列中,并且公式化,这就是著名的Granger因果关系。1982年Geweke提出条件Granger因果关系,这就使Granger因果关系能用于研究高维数据之间的内在联系。不仅如此,Geweke还将时域Granger因果关系推广到频率空间,得到了与时域空间一致的Granger因果关系的频率分解,由Kolmogrov公式,频域Granger因果关系和时域Granger因果关系是一致的。这就使得Granger因果关系的应用进一步增强。本文针对实际生物数据的特点对条件Granger因果关系进行了推广,并从理论和实际应用两方面对此分别进行了介绍。全文由7个章节组成。
第一章较为详细地交代了本论文的研究背景以及目前该研究在国内外的发展动态,同时还简要介绍了本文的主要结构。
第二章介绍了阅读本文所要用到的数学方面以及生物方面的基本概念和预备知识。
第三章我们将条件Granger因果关系进行了推广,定义的一个新的概念:偏相关Granger因果关系。通过对条件Granger因果关系和偏相关Granger因果关系在时域空间的比较,我们发现偏相关Granger因果关系可以消除公共外部输入和隐变量的影响,找到数据之间真实的内在关系,而条件Granger因果关系却做不到。
第四章在频域空间对偏相关Granger因果关系进行了研究,得到了与时域空间一致的偏相关Granger因果关系的频率分解。
第五章我们将偏相关Granger因果关系再次进行了推广,定义了另外一个新的概念:偏相关复合Granger因果关系,该量可以用来刻画基因以及神经元的集团行为,找到它们作为一个复合体之间的相互作用,同时给出了相应的频率分解。
由于常规的Granger因果关系只适合于处理小网络,在第六章我们给出了研究大网络的一种行之有效的算法:序贯偏相关Granger因果关系,从模拟的例子和实际处理的生物数据来看,该算法是非常有效的。
第七章给出了本文的总结和对未来工作的展望。