基于新一代测序技术对不同物种的基因进行标准化及差异化表达分析
【摘要】:高通量技术作为一种革命性的测序技术,由于其高通量、高精度、低成本的特点,已经成为了可以替代基于杂交的微阵列技术进行生物学研究的一种工具。目前,以Roche公司的454技术、Illumina公司的Solexa技术以及ABI公司的SOLID技术为标志的新一代测序技术(Next generation sequencing,NGS)已经被广泛地应用于实际的生物学研究中。高通量测序技术在为基因组的研究提供了有利工具的同时也带来了统计上的挑战。由于基因长度、测序深度以及样本间片段分布的差异性,我们通常不能直接对原始数据进行处理。现有的文献提供了多种方法来进行相同物种RNA-Seq数据的标准化,并且利用标准化之后的数据进行基因的差异化表达分析。本文考虑针对不同物种的RNA-Seq数据进行标准化的问题。识别不同物种之间的差异化表达的基因能够有效地发现进化上保守的转录反应,而且对探索哺乳动物器官中基因表达水平的演变和研究医学中基因的表达水平具有重大影响。由于不同物种之间的基因个数、同源基因的长度以及测序深度的差异,对不同物种的RNA-seq数据的标准化更为复杂,过去所使用的针对相同物种的标准化方法不能直接应用于不同物种基因的标准化。为了使不同物种的RNA-seq数据之间可以进行比较,在本文中,我们考虑利用已有的一部分保守的同源基因以及假设检验的方法,通过最小化经验误差和名义I型误差之间的偏差来寻找最佳的标准因子,进而提出了基于尺度的标准化(scale based normalization,SCBN)方法。我们将SCBN方法与现有的不同物种的标准化方法(Median method)进行了比较,模拟结果显示SCBN方法在多种情况下比Median方法表现得更好。此外,我们还分析了人类及小鼠的实际数据,得到的结果同样也说明了SCBN方法优于现有的方法。最后,为了实际应用的需要,我们开发了名为SCBN的R包,目前可以在Bioconductor网站下载使用。