收藏本站
收藏 | 论文排版

RNA/DNA及癌症基因测序数据的统计方法研究

储晨  
【摘要】:新一代基因测序技术(Next Generation Sequencing,NGS)的发展,测序成本的降低,大量的测序数据在形形色色的生物实验中产生,也给测序数据的统计分析方法——如何根据这些海量数据,引入统计检验,完成生物实验层面的各种假设,如何用统计的方法弥补基因测序技术在完整揭露生物本质的不足——提出了新的挑战。本文将就RNA测序、DNA甲基化(DNA methylation)以及癌症基因测序数据中统计方法的应用进行研究。 ·RNA测序首先,NGS一个很重要的应用是快速低消耗地记录所有的基因转录——RNA测序。RNA测序数据,相对于微阵数据,对于转录水平的刻画更加精确。在RNA测序实验中,百万量级的短测序片段被配对到参考基因组(Reference Genome)上,落入某一些基因片段区域的读数被记录下来。这些生物学家们感兴趣的片段一般被成为microRNA(或简称为miRNA)、小干扰RNA (siRNA)、长非编码RNA (lncRNA)或信使RNA (mRNA)。有研究表明,读数数据与目标转录的多少呈线性的关系。产生这些测序数据最基本的一个分析目的在于,更好地识别在不同的生物或者疾病条件下,这些基于读数的表达的差异和变化。而在这种分析中,最基本也是最重要的一个挑战在于RNA测序数据的过分散((overdispersion)性质。在理论上,这些读数数据的分布从零到无穷,方差很大,并且在不同的样本之间具有很大的差异。这些特殊的性质推动了统计方法在RNA测序的标准化(normalization)和差异表达检验(differential expression test)中的应用。很多传统的方法利用泊松分布或者负二项分布来拟合RNA测序数据。实际数据的样本均值和样本方差往往相距甚远,泊松分布均值和方差相同,使得它不可能适用于RNA测序的数据。为了解决泊松分布的分布不匹配问题,基于负二项分布,DESeq和edgeR被相继提出,以期解决过分散的问题。另一种可替代泊松分布的分布是广义泊松分布(generalized Poisson distribution)。它比传统的泊松分布多了一个参数。这个参数可以看做是广义泊松分布偏离经典泊松分布的速度,即可认为是过分散(或者亏分散,underdispersion)的一种刻画。负二项分布和广义泊松分布均适用于过分散数据的拟合。但在RNA测序数据中,负二项分布往往会高估0附近的概率,从而导致整体上的拟合效果差于广义泊松分布。在大量的实验数据的应用中发现,DESeq以及edgeR对于离差参数(dispersion parameter)的估计以及随后的差异表达检验,在小样本中的应用中,存在很大的偏差。而很多现存的广泛应用到生物实验中的标准化方法也都在不同程度上差强人意,本文的第二章将就RNA测序的标准化以及标准化后数据的差异表达检验进行研究,基于广义泊松分布,提出一套全新的标准化及差异表达检验流程。流程建立的基础是,假设拟合RNA测序的广义泊松分布的参数θ反映了一个样本(replicate)的转录的真实的平均水平。若能将这种平均水平标准化到同一水平线上,就消除了不同样本间的差异,完成了标准化的过程,减小了样本差异对差异表达检验的影响。另一方面,为了消除样本过少对统计检验大样本性质的影响,在差异表达检验中,我们采用T检验的统计量作为目标统计量,通过对不同实验条件下的样本进行随机抽样,生成T检验统计量的经验分布,并由此进行统计推断。由于该经验分布是将所有基因或miRNA的T检验统计量放在一起考虑,因此即使是样本过少导致随机抽样的可能次数很少,但是基因或miRNA数目较多保证了根据经验分布进行的统计推断的准确性。 具体地来说,基于广义泊松分布,我们提出了四种标准化方法:1,随机选取一个样本作为参照样本,其他任何一个样本都将与其进行比较,假设两个样本的GP分布有不同的λ,而θ之间可以通过标准化因子相互转化;2,将每个样本都除以GP分布的θ;3,将样本都映射为它们拟合的GP分布的概率;4,在1中,限制两样本GP分布的λ相同,拟合两样本的θ。 为了比较这几种方法同现存的标准化方法的优劣性,我们将现存的标准化 方法(例如Global、TMM、LOWESS等等)作为我们提出的基于T统计量的经验分布的差异表达检验的第一步。Global、TMM、LOWESS都是基于对数度量下样本的差异进行标准化:Global是用两样本的对数差异的均值作为标准化因子,TMM则是考虑到样本的读数可能出现的非常极端的值,而采用对对数差异进行截断(Trimmed)后的差异均值进行标准化,而LOWESS则是基于LOWESS回归得到这个标准化值。同时加入比较的还有DESeq和edgeR,这些有自己独特的标准化方法己在成熟的R算法包中实现。 这些方法表现的比较通过基于真实数据的模拟完成。原假设(即不同实验组的样本的读数数据之间的差异不显著)的数据通过从多组实验样本的样本池中随机抽取。由于是从大量的样本中随机抽样,可近似地认为消除了样本差异。而对立假设的数据通过随机选择部分RNA对读数数据进行平移或伸缩变换得到。由于现实中的实验样本几乎不可能是原假设下的数据(一般认为有l0%到20%的差异表达的基因或niRNA),因此我们deGPS的第二步的经验分布通过随机打乱对立假设下的数据产生,根据这个分布再计算原假设下的P值,从而得到一型错误率。对对立假设下的数据计算的P值,比照变换了的基因或miRNA,则可得出对应的检验功效。 通过模拟我们发现,在小样本的条件下,基于广义线性模型的edgeR无法控制住一型错误(基于十个甚至更少样本的线性模型的统计推断不再可靠),而DESe q又过于保守(功效过低)。我们的基于GP分布的标准化方法,在众多标准化方法中成为一枝独秀——具有符合条件的一型错误和最高的功效,特别是上文提到的方法1,尤为如是。而其他三种都有不同程度的局限性,例如3,由于将所有的数据归一化到0,1之间,丧失了很多样本信息,从而导致一型错误的控制出现问题。而4,由于限制了入必须相同,而现实样本中的入虽然差别不大,但是由于GP分布的均值和方差都是与1/(1-入)成比例的,因此一点微小的差别都会造成均值和方差的巨大差别,从而限制了这个方法在模拟中的表现。 此外,为了进一步说明标准化方法的优劣性,我们还通过引入两个在标准化方法衡量中的经验的统计量——对数度量的样本差异的Kol-mogorov-Smirnov统计量以及均方误差值——说明deGPS的标准化方法具有优越性的原因。Kolmogorov-Smirnov统计量用来刻画标准化前后的对数差异的分布差异,较小的KS值说明,分布被改变的较小,是较为适当的方法。而均方误差用来刻画标准化后的对数差异与差异均值的距离,是对标准化效果的一种刻画——越小的值表明标准化降低了样本差异分布的方差,即样本差异没有标准化前那么极端。一般来说均方误差值越小,说明标准化越有效——但也并非绝对。由于越小的均方误差值可能意味着对原分布改变越多,从而是越大的KS值。总体来说,我们的基于GP分布的标准化方法,特别是方法1,具备了很小的KS值和不太大的均方误差值。而Global、TMM、LOWESS都对原分布有过大的影响。 ·DNA甲基化NG S的另一重要应用在于DNA甲基化的测序。在甲基转移酶的作用下,DNA的两个核苷酸C和G的胞嘧啶被有选择性地添加甲基,形成5-甲基胞嘧啶(5-mC)。甲基化也可能形成其他的胞嘧啶,虽然可能比较少,例如N6-甲基嘌呤(N6-mA)以及7一甲基鸟嘌呤(7-mG)。 DNA甲基化修饰能够影响大部分的基因的表达。特别地,其中有一些会增大内源性逆转录病毒基因(endogenous retroviral genes)的表达。DNA甲基化也几乎在所有类型的癌症中都扮演着重要的角色。而它们的检测也有多种方法。多数方法都依赖于DNA的重亚硫酸盐处理(bisulfite treatment)。有研究表明,DNA甲基化往往发生在CpG二核苷酸中,例如在成人体组织细胞中。因此,本文的第三章将就CpG岛的甲基化率的数据进行研究,给出在病例-对照实验中,不同实验条件对DNA甲基化的影响的显著性检验。 对DNA甲基化的测序数据,每个CpG位点(site)上有两个读数值:C值和T值。于是对于这个位点,甲基化率,C/(C+T),可以被看做是一个二项分布p=C/(C+T), n=C+T。在此之前,由于数据的局限性——每个CpG岛只有一个总的甲基化率——模型只能假设响应变量为正态分布,并且在样本较少的情形下——类似于第二章中的RNA测序的数据——是一个每组含有3-5个样本的两分组差异检验,极大的增加了检验的一型错误。 随着NGS的发展,DNA甲基化的数据发展成为能够细致到CpG岛的逐个位点的C值和T值,从而使得模型可以基于二项分布展开,于是,对数据的描述更加准确。另一方面,基于位点的数据又给统计分析带来的新的难题。分析显示,实际数据中,甲基化率的大小跟位点的分布有很大的相关性——离得近的位点,甲基化率倾向于在同一水平。因此,样本间的独立性不能成立,使得传统的检验方法和回归模型失效,造成无法接受的一型错误和假阳性(false positive)。这种情况下,广义线性混合模型(generalized linear mixed model)就成了一个自然的选择。我们将样本ID和位点位置,两个属性变量,作为随机效应(random effect),并进一步假设样本ID的协方差阵是对角阵,位点位置的协方差阵是非对角阵(意在刻画样本在不同位点之间的相关性)。而需要检验差异的分组变量作为固定效应(fixed effect)。于是,不同组别的甲基化率的差异显著性检验就是这个广义线性模型的固定效应的系数显著性检验。 广义线性混合模型的实现方法,目前仍然是一个热门的研究领域。在过去的几十年中,有很多方法被提出来进行广义线性模型的参数估计。其中包括两种基本的方法:1,给出近似的目标函数;2,近似的估计模型。2中的方法,基于泰勒展开,将广义线性混合模型线性化,也被称为线性化方法。这类方法通过最大化近似的线性混合模型的似然函数,得到参数的估计,直到某种收敛条件被满足。这种线性化方法通常有两重循环:新的参数估计被用来更新线性化过程,从而得到新的线性混合模型,然后再循环地进行参数估计。而积分近似的方法通过近似的函数逼近广义线性模型的似然函数,通过数值方法求解近似函数的最大值及相应的参数估计。这种方法的好处是提供了一个真正的用于优化的目标函数,从而使我们可以基于这个目标函数进行似然比检验,即使是在具有复杂的、嵌套的随机效应的广义线性混合模型中依然可以做到。而它的缺点是,在复杂模型下的计算的复杂度会很高,在实际应用中通常建议随机效应的水平不超过五个。因此,这种方法并不适用于CpG岛这种动辄成百上千个位点的数据。在本文中,我们采用SAS中的GLIMMIX过程来完成广义线性混合模型的参数估计和统计推断。通过上述广义线性混合模型——将位点随机效应的协方差阵设置为非对角的结构,而样本随机效应的协方差阵设置为对角结构,来反映目标变量在位点之前的相关性——来对CpG岛上的甲基化数据进行建模。GLIMMIX采用基于拟似然的线性化方法估计参数。为了证明这种方法的有效性,我们基于真实数据的模拟比较了三种广义线性混合模型——以logit为连接函数、二项分布为响应变量分布的GLMM,认为甲基化率是正态分布的GLMM以及不考虑位点的相关性(即不考虑将位点位置作为随机效应)的GLM M。同时加入比较的还有:T检验,加权的T检验以及其他最近提出的检验方法。模拟通过随机抽样,保证新产生的分组中,含有相同数量的原分组样本,来产生原假设下的数据。通过模拟我们发现,以logit为连接函数、二项分布为分布的GLMM具有正常的一型错误,其他由于不同程度的无视了数据的特性而使一型错误异常——两种GLMM未考虑样本相关性和C+T作为权重(weight),而T检验相关的方法都是建立在样本独立性的假设上。 此外,我们还实现了广义线性混合模型的贝叶斯方法。在现存的概率理论框架下的GLMM参数估计有一些明显的不足,例如基于拟似然的线性化方法无法得到模型真正的似然函数值,从而使得统计检验的有效性受到质疑,而能得到似然值的方法又具有过高的时间复杂度。此外,随机效应的协方差阵如果是非对角的,那么在模型中必须被假设成某种特定的形式,在保证其正定性的基础上又同时简化模型的估计(若对矩阵的每个元素都分别估计,除了时间复杂度过高,模型的自由度也有可能不够),而实际的协方差阵结构跟可供选择的几种结构有一定的出入。因此,在第三章的后续研究中,我们引入了贝叶斯方法来实现GLM M—对固定效应的参数以及拥有对角的协方差阵的随机效应的方差选用平坦的先验,例如方差很大的正态分布,和参数很大的伽马分布;而对拥有非对角的协方差阵的随机效应的协方差阵选取Wishart分布作为先验分布,并假设随机效应是多元正态分布。 这样的假设下,我们便可以利用Gibbs采样法进行参数估计,并根据参数的后验分布进行统计推断。由于贝叶斯的分层模型,基于全条件概率分布的Gibbs采样法,使得协方差阵的估计变得简单(同样可经过对后验全条件概率函数的抽样可得)。根据分层模型的理论分布,随机产生的数据模拟显示,贝叶斯的后验均值估计能得到几乎无差别的预设的参数值;我们同样基于真实数据进行了抽样模拟,比较在GLIMMIX模拟中提到的三种GLMM,也得到了类似的结果。我们同时还通过对其中一组的甲基化率增加一个常数来产生对立假设的数据,不考虑C+T作为甲基化率的权重的模型具有正确的一型错误但是过低的功效,而不考虑样本相关性的GLMM具有过高的一型错误。并且通过不同样本大小的模拟数据的比较,当样本过少的时候,得到的估计同样会有比较大的偏差,从而导致不符合要求的一型错误。 ·亚克隆癌症基因测序数据是NGS的又一重要产物。通过分析癌症基因测序数据,有助于生物学家和医药学家找到治疗癌症的关键因素。研究表明,肿瘤组织里的异质性是癌症很难被攻克的重要原因之一,而癌变细胞的异质性可以用亚克隆(subclone)的演化来描述。某些癌细胞中等位基因的癌症突变的多峰分布也表明了亚克隆的存在(若只有一个亚克隆便只可能产生一个峰)。在癌细胞的发展过程中,在不同的时间节点来看亚克隆的结构是不同的,而了解亚克隆的结构则有助于利用抗癌药物“各个击破”,从而最终攻克癌症。然而,多峰的癌细胞中具有怎样的亚克隆结构,目前尚未有方法可以识别。在第四章中,我们提出了一个全新的模型来检测亚克隆的存在,并提出了基于似然比检验的统计检验来判断这种存在的显著性。 以两个亚克隆为例来说,假设两个亚克隆的变异相互独立,并且基因型只有RR和RV。基因型之间转换的转移概率矩阵可以根据独立性假设以及两个亚克隆的变异率给出,而在一个样本内,对于某一个位点的观测数据的二项分布的参数P也可根据两个亚克隆的比例、正常组织(假设只存在RR)的比例以及测序错误率给出。根据这两个矩阵,即可得到每个位点的基因型的后验概率,基于这个后验概率,我们便能给出一个收敛到参数极大似然估计的参数迭代过程(类似EM算法)。由于很多求函数极值的数量化方法在某些极端情况下(例如在只含有一个亚克隆的数据中强行建立两个亚克隆的模型),会出现意想不到的错误,同时在参数随着亚克隆的假设个数增加而成倍的增长的情况下,这些数量化方法的求解也不再稳定。因此,相对来说,这种参数的迭代更加稳定和可靠。在参数估计完成之后,我们引入基于二项分布假设的似然比检验进行两个亚克隆相对于一个亚克隆的显著性检验。若检验的结果拒绝原假设,那么我们便接受两个亚克隆的估计。由于真实数据中无法得知真正的亚克隆结构,因此模拟基于按照分布假设随机产生的数据展开。模拟结果表明,当样本较少而变异率又很低的时候,估计会有较大的偏差。 上述模型同样被推广到高维的情况。此时的参数迭代过程极其复杂,因此我们只是描述了模型的理论,并未进行模拟。在高维的模型中,我们对亚克隆的估计是从两个亚克隆估计开始,然后逐个增加亚克隆个数的过程。每一步个数的增加都有似然比检验作为是否继续增加亚克隆的检验标准。当似然比检验的结果是接受原假设,便停止估计的过程,用这个过程的前一步作为亚克隆的估计结果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 胡希远;高金锋;;非独立试验数据的一般线性混合模型分析[J];中国农学通报;2007年03期
2 干晓蓉;;广义线性混合模型(英文)[J];昆明理工大学学报(理工版);2007年04期
3 徐礼文;王松桂;;一般线性混合模型中的最佳线性无偏估计和谱分解估计[J];数学物理学报;2009年02期
4 李光辉;;线性混合模型中的参数与方差分析[J];甘肃联合大学学报(自然科学版);2009年04期
5 刘宝慧;;一类线性混合模型中的参数估计[J];西北民族大学学报(自然科学版);2009年03期
6 尹文娇;赵守军;张勇;;广义线性混合模型在传染病流行病学研究中的应用[J];中国疫苗和免疫;2011年04期
7 谢远涛;王稳;谭英平;杨娟;;广义线性混合模型框架下的信度模型分析[J];统计与信息论坛;2012年10期
8 谢远涛;杨娟;;基于操作时间和广义线性混合模型的准备金评估技术研究[J];保险研究;2014年03期
9 王松桂,尹素菊;线性混合模型参数的一种新估计[J];中国科学(A辑);2002年05期
10 史建红;关于谱分解估计和方差分析估计在线性混合模型中的比较(英文)[J];晋东南师范专科学校学报;2003年05期
11 李辉;崔文善;朱砾;;具有异方差的线性混合模型参数的谱分解估计[J];怀化学院学报(自然科学);2006年05期
12 李辉;尹晓翠;张玉涛;袁冬梅;王敏会;;具有异方差的线性混合模型参数的谱分解估计的几点注记[J];莱阳农学院学报;2006年03期
13 史建红;王松桂;;一类线性混合模型的谱分解估计[J];数学研究与评论;2006年04期
14 蒋同斌;;遗传算法的线性混合模型的影响分析[J];淮阴师范学院学报(自然科学版);2007年04期
15 杨虎;黎雅莲;;线性混合模型参数的部分岭型谱分解估计[J];应用概率统计;2008年03期
16 贺宝龙;唐湘晋;;广义线性混合模型在信度理论中的应用[J];金融经济;2008年20期
17 薛蕊;郭大伟;;线性混合模型中参数估计的容许性[J];杭州师范大学学报(自然科学版);2010年01期
18 李再兴;丁胜;;带限制线性混合模型中参数估计的小样本性质(英文)[J];应用概率统计;2011年03期
19 段智力;;约束下线性混合模型参数估计的渐近解及其收敛性[J];数学的实践与认识;2012年04期
20 孙晓祥;杜宇静;;异方差的线性混合模型的参数估计[J];数理统计与管理;2012年02期
中国重要会议论文全文数据库 前1条
1 刘超;贾知青;;基于动态线性混合模型的居民消费行为研究[A];第九届中国管理科学学术年会论文集[C];2007年
中国博士学位论文全文数据库 前6条
1 武萍;纵向数据中线性混合模型的估计与检验[D];华东师范大学;2009年
2 马铁丰;线性混合模型与多元分布中的统计推断问题[D];北京工业大学;2008年
3 范永辉;线性混合效应模型的估计与检验[D];北京工业大学;2007年
4 冯建英;多歧性状关联分析的分层广义线性混合模型方法[D];南京农业大学;2013年
5 徐礼文;几类统计模型的估计和预测理论[D];北京工业大学;2006年
6 储晨;RNA/DNA及癌症基因测序数据的统计方法研究[D];中国科学技术大学;2015年
中国硕士学位论文全文数据库 前10条
1 贺宝龙;广义线性混合模型在精算分析中的应用[D];武汉理工大学;2008年
2 杨云鹏;广义线性模型,广义线性混合模型及其应用[D];新疆大学;2010年
3 王雨;线性混合模型的模型选择[D];北京工业大学;2003年
4 金孝勇;一类线性混合模型的参数估计[D];安徽师范大学;2011年
5 赵艳艳;基于线性混合模型对大型数据的统计分析方法及其应用[D];西南交通大学;2013年
6 姬文鸽;基于广义线性混合模型的未决赔款准备金估计方法研究[D];暨南大学;2011年
7 江冬明;线性混合模型的影响分析[D];北京工业大学;2001年
8 邵敏娜;线性混合模型参数估计问题的研究[D];西北大学;2005年
9 索文莉;线性混合模型在艾滋病疗效预测中的应用[D];天津工业大学;2008年
10 薛蕊;线性混合模型的参数估计[D];安徽师范大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978