基于基因本体(GO)的基因语义相似性度量方法的研究及应用
【摘要】:
在当今的基因组时代,我们面临的主要挑战之一则是基因之间功能关系的挖掘,高通量的微阵列技术的出现填补了这一缺陷。DNA微阵列提供了大量的基因表达数据,这为基因功能和基因调控关系研究提供了独特的机会。通常认为具有相似表达谱的基因具有类似的功能,可以通过已知功能基因的表达谱模式预测未知基因的功能。但是现在的研究发现,功能相似的基因并不总是具有相似的表达谱模式。因此,研究基因功能的研究人员希望通过其他途径提高他们预测基因功能的准确性,基因本体(Gene Ontology, GO)的出现使这种想法变成了可能。现在,应用GO注释定义基因的“语义相似性”(semantic similarity)进而定义基因功能相关性已成为越来越普遍的做法。
本文探讨了国内外基因语义相似性的研究现状,对目前常用的四种基因语义相似性度量方法(集合法、向量法、图形法和术语法)的典型模型及优缺点进行详细介绍,其中术语法是本文的重点,因此对术语法模型Resnik、Jiang和Conrath、Lin、Combine和Wang进行了重点介绍。
本文针对已有语义相似性度量方法的不足,充分考虑GO的拓扑结构和术语间的语义关系,引入了术语级的概念,对语义类型边的语义贡献因子进行重新定义,并引入了根术语到具体术语全路径的概念,提出了一种基于GO语义全路径的基因语义相似性度量方法(Full pathway similarity, FPS)。通过将本文提出的基于语义全路径的方法应用于实际,并与经典的Wang方法进行分析比较。结果表明,比起Wang的方法,我们的方法得到的结果更符合实际情况,精度更高。
基因调控网络是功能基因组学研究的一个热点,它从基因之间互相调控或影响的角度揭示复杂的生命现象。本文尝试用基因的GO注解信息来代替表达谱数据,利用FPS度量基因的功能关系,并给合图论中经典的最大团问题,从GO层面出发构建基因的调控网络,结果表明我们的预测结果具有一定的可靠性,因此,我们的FPS算法可以为基因调控关系研究及调控网络构建提供有用的参考信息。
基因语义相似性度量是一个复杂且重要的问题。然而,随着基因注释信息(GO)的不断完善和计算机技术的不断提高,基因语义相似性度量方法研究将不断地取得突破。而从GO出发研究基因的功能相似性,探索基因的调控关系,预测未知基因的功能,不仅可以避免收集大量的基因表达数据的困难,而且准确的基因产物语义相似性度量可以大大提高基因研究工作的效率,对生物学家研究基因功能及相关研究具有一定的参考价值及指导意义。