收藏本站
《南京航空航天大学》 2016年
收藏 | 手机打开
二维码
手机客户端打开本文

高通量RNA-seq测序数据的基因表达水平分析研究

张礼  
【摘要】:近年来,新一代高通量DNA测序技术的快速发展,给人类研究基因组学和转录组学提供了巨大的技术支持,取得前所未有的成就。基于新一代测序技术的RNA-seq技术,正快速取代传统基因芯片技术,成为研究转录组学的标准技术手段。RNA-seq测序技术直接对mRNA反转录出的cDNA片段进行高通量的测序,获得海量的读段数据,用以研究测序样本中mRNA的表达程度。相比传统基因芯片技术,RNA-seq测序技术无需设计已知序列探针,能在全基因组范围内以单个碱基为基本单位量化转录本片段,并能应用于新基因的识别,具有高通量,高信噪比,高灵敏度,所需样本少等优点,被广泛运用于不同研究领域。在转录组学研究中,基因表达水平分析主要研究基因以及所包含的剪接异构体在转录过程中表达程度,对人们了解基因的调控机制,对疾病的早期预防,诊断和治疗等方面都有重要意义。根据RNA-seq数据分析流程,基因表达分析的研究内容可分为表达水平估计和差异表达分析两部分。因此,本论文的主要工作是围绕上述两个方向来展开研究和讨论,主要内容如下几个方面:1基于碱基偏差的表达水平估计。表达水平估计作为RNA-seq数据分析中最基本实验目的之一,一直以来都是一个具有挑战性的工作。在RNA-seq数据中,数据偏差导致基因上读段呈现非均匀分布,是影响表达水平准确估计的关键因素。针对此问题,大量表达水平估计方法采用不同偏差纠错的策略来消除数据偏差的影响。因此,我们提出了一个基于碱基偏差的表达水平估计方法一一PBSeq。该方法采用Poisson分布拟合每个碱基上的读段数据。通过两个非参数模型分别估计每个碱基上的位置偏差和序列偏差,将偏差值当做权重融入到模型中。通过一个模拟数据集和多个真实数据集的评估,PBSeq方法在估计基因和剪接异构体表达水平上,能获得极具竞争力的结果,并且大幅度的提高了计算效率。PBSeq方法不仅能估计基因和剪接异构体的表达水平,同时还能提供相应表达水平的不确定性。通过差异表达分析的验证,表达水平的不确定性能有效的提高后续分析的准确性。2基于联合估计外显子偏差的表达水平估计。RNA-seq数据在不同条件或者不同组织样本中,其读段分布的变化趋势具有高度相似性。但是现有表达水平估计方法中很少考虑到数据偏差在不同样本之间的关联,通常都是单独处理每个数据样本。基于此数据特点,我们提出了一个基于联合估计外显子偏差的表达水平估计方法——PGSeq。该方法采用Poisson-Gamma混合模型来估计基因和剪接异构体的表达水平,其中Poisson分布用来拟合基因中每个外显子上的读段数据。Gamma分布用来模拟数据偏差,其参数在多个样本之间是共享的,表示读段分布的变化趋势在不同样本之间具有高度相似性。通过一个模拟数据集和多个真实数据集的评估,PGSeq方法能最为准确的估计基因和剪接异构体的表达水平,并且也能提供了相应表达水平的不确定性。采用差异表达分析进一步验证,PGSeq方法估计的表达水平以及相应的不确定性能有效提高差异表达分析的准确性,特别是在低表达基因上。3基于表达水平不确定性的差异表达分析。作为RNA-seq数据分析中最基本实验目的之一的差异表达分析,受到科研人员的格外关注。在目前大量的差异表达分析方法中,很少有方法考虑表达水平不确定性。此外,绝大部分方法仅能检测差异表达的基因,只有少数方法能够检测差异表达的剪接异构体。因此,我们提出了一个基于贝叶斯框架的差异表达分析方法一一BDSeq。该方法同时考虑了表达水平以及相应的表达水平不确定性,能够同时寻找差异表达的基因和剪接异构体。BDSeq方法采用两种不同的建模策略来嵌入表达水平的不确定性,从而产生了两个不同的模型一一基本模型BDSeqB和快速模型BDSeqF。通过多个真实数据集的评估,考虑表达水平不确定性能有效提高差异表达分析的准确性,其中BDSeqB模型能获得更准确的结果,但是BDSeqF具有更高的计算效率。4 RNA-seq数据分析通道。为了方便用户使用本论文提出的方法,我们设计了一个系统的RNA-seq数据分析通道一一UFP-RSeq。该分析通道包括读段定位,表达水平估计和差异表达分析三个模块,能完成一个RNA-seq数据的基因表达水平分析过程。读段定位模块选取了最流行的定位软件Bowtie。表达水平估计模块中包含了我们提出的GamSeq,PBSeq和PGSeq三个方法。而差异表达分析模块中由BDSeq方法和三个基于读段数据的方法构成。根据用户需求和实验目标,提供了相应的建议来帮助用户选择合适的处理途径和方法。UFP-RSeq分析通道中所有方法都提供了代码和详细文档,从地址http://parnec.nuaa.edu.cn/liux/UFP-RSeq.html上可免费下载。综上所述,本论文着重研究了在RNA-seq数据中基因表达水平分析的表达水平估计和差异表达分析两个研究方向。在表达水平估计中,对于数据偏差造成的读段非均匀分布问题,我们逐步提出了GamSeq,PBSeq和PGSeq等方法。在差异表达分析中,我们提出了BDSeq方法,该方法基于我们提出的表达水平估计方法的结果,并考虑了表达水平不确定性。实验结果证明,我们提出的多个方法都取得理想的计算精度和计算效率。为了方便用户使用,我们设计了 UFP-RSeq分析通道,并给出相应建议帮助用户选择合适的分析路径和方法。
【学位授予单位】:南京航空航天大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:Q78

【相似文献】
中国期刊全文数据库 前5条
1 李小白;向林;罗洁;胡标林;田胜平;谢鸣;孙崇波;;转录组测序(RNA-seq)策略及其数据在分子标记开发上的应用[J];中国细胞生物学学报;2013年05期
2 王颖;刘麟;;一种基于RNA-Seq的基因组注解评估方法[J];科学通报;2013年33期
3 周超平;李鑫辉;;单细胞转录组研究进展[J];生物化学与生物物理进展;2013年12期
4 赵霞;陈灿煌;倪青山;王竞;胡福泉;谭银玲;;通过RNA-seq初步考察铜绿假单胞菌噬菌体PaP3对宿主转录组的全局性调控[J];免疫学杂志;2013年04期
5 兰道亮;熊显荣;位艳丽;徐通;钟金城;字向东;王永;李键;;基于RNA-Seq高通量测序技术的牦牛卵巢转录组研究:进一步完善牦牛基因结构及挖掘与繁殖相关新基因[J];中国科学:生命科学;2014年03期
中国重要会议论文全文数据库 前3条
1 赵西西;王成成;陈国华;林剑青;贺竹梅;;RNA-Seq揭示黄曲霉胞内氧化还原反应与黄曲霉毒素合成的关系[A];中国遗传学会第九次全国会员代表大会暨学术研讨会论文摘要汇编(2009-2013)[C];2013年
2 张玉刚;祝军;梁美霞;戴洪义;;利用RNA-Seq分析柱型和普通型苹果转录水平差异[A];中国园艺学会2011年学术年会论文摘要集[C];2011年
3 于安民;杨锦芬;;基于RNA-seq的阳春砂果实可溶性糖及萜类代谢的基因表达谱分析[A];生态文明建设中的植物学:现在与未来——中国植物学会第十五届会员代表大会暨八十周年学术年会论文集——第4分会场:资源植物学[C];2013年
中国博士学位论文全文数据库 前5条
1 李雪艳;基于RNA-Seq的兰州百合鳞茎淀粉-蔗糖代谢关键酶SuSy和INV基因的挖掘[D];沈阳农业大学;2015年
2 冉隆科;基于RNA-Seq的卵巢癌铂类敏感和耐药性IncRNAs的系统识别及其差异表达分析研究[D];重庆医科大学;2015年
3 王欢;基于RNA-seq技术的乙肝相关肝硬化肝细胞转录组学研究[D];吉林大学;2017年
4 张礼;高通量RNA-seq测序数据的基因表达水平分析研究[D];南京航空航天大学;2016年
5 梁书利;基于RNA-Seq技术的毕赤酵母转录组学研究及其表达元件的挖掘[D];华南理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 田巍;使用多种模拟和真实数据对常用的RNA-seq比对软件的测试与综合比较[D];华南理工大学;2015年
2 胡呈呈;基于RNA-seq的前列腺癌1ncRNA相关的分析研究[D];重庆医科大学;2015年
3 王玥辰;基于RNA-Seq技术对脐橙果皮光泽型芽变果实发育期间蜡质合成及转运相关基因的研究[D];江西农业大学;2014年
4 马改妮;RNA-Seq技术筛选抗猪繁殖与呼吸综合征病毒的宿主限制性因子及其抗病毒作用验证[D];中国农业科学院;2016年
5 吴亚;基于RNA-Seq技术分析菜心叶片衰老相关基因[D];华南农业大学;2016年
6 钟丽芬;基于RNA-Seq的雅致放射毛霉羧肽酶研究及其基因AecpY在毕赤酵母中的表达和特性研究[D];华南理工大学;2016年
7 焦玉莲;基于RNA-seq和Small RNA-seq数据初步构建雷竹成花调控网络[D];浙江农林大学;2016年
8 石文芳;基于RNA-seq测序的梅花转录组分析[D];北京林业大学;2012年
9 杨波;基于RNA-Seq技术的长江三角洲白山羊优质笔料毛性状研究及皮肤毛囊结构的观察[D];扬州大学;2015年
10 毛笈华;利用RNA-seq技术挖掘胡萝卜抽薹开花相关基因[D];中国农业科学院;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026