收藏本站
《南方医科大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

对长链非编码RNA序列、进化与种系特异性的计算研究

贺莎  
【摘要】:研究背景和目的:Siepel等发现脊椎动物基因组含有大量的保守区域,且这些保守区域主要分布于基因组的“沙漠”(非编码区)。测序技术的发展揭示,许多这样的保守区域可以被转录,其转录片段大于200bp,含有polyA尾,不含开放式阅读框,称之为长链非编码RNA,并一度被认为是“转录噪音”。近年来长链非编码RNA被证实广泛存在于多细胞动物中,包括哺乳动物(如小鼠和人类),脊椎动物(如鸡和斑马鱼),节肢动物(如果蝇),甚至线虫。虽然Pang等发现长链非编码RNA的同源序列在物种间保守性很低,但是Ponjavic等通过计算分析发现,与进化呈近中性的祖先重复序列相比,人类、小鼠和大鼠的长链非编码RNA同源序列受到了更大的负选择。随后的实验研究逐步揭示,长链非编码RNA大部分都有功能,参与诸多发育等生理过程。长链非编码RNA的功能最早在哺乳动物X染色体失活中得到揭示。雌性哺乳动物体细胞为了和雄性哺乳动物体细胞在X染色体基因表达量上达到对等,会随机失活一条X染色体。长链非编码RNA Xist正是在X染色体失活中扮演重要角色,敲除Xist会阻止X染色体失活。实际上,除了 Xist,还有一组长非编码RNA协同控制X染色体失活。基因印迹指的是一个等位基因被永久关闭。熟知的印迹基因包括控制生长发育的Igf2与Igf2r等,它们在胚胎发育过程中起重要作用。基因的印迹表达同样受到长链非编码RNA的调节,不少实验把长链非编码RNA的转录片段进行截断或者敲除其启动子,发现其附近基因的印迹表达出现缺失。除了调控X染色体失活和基因印迹,长链非编码RNA还组织特异性地调控大量其它基因的动态表达,尤其是胚胎发育与体细胞分化过程中的基因表达。例如,HOTAIR逆式(intrans)抑制控制体轴发育的HOXD基因的表达,ANRIL顺式(incis)抑制控制细胞分裂的CDKN2A/CDKN2B基因的表达。此外,长链非编码RNA还参与染色体3D结构的重塑。例如,Firre能够使位于不同染色体上的一些基因聚于同一个核区域,而这些基因都与能量代谢相关。虽然长链非编码RNA调节大量基因的表达已经是不争的事实,但是其调节基因表达的机制却依旧不太清楚。在生物体内,染色质修饰复合体(如PRC,Polycomb Repressive Complex)能够通过对染色质组蛋白进行化学修饰从而调节基因的表达。但是,在多细胞生物体内PRC的数量并不多,相对于基因组内数量庞大的修饰位点,少量的PRC蛋白如何实现在特定时刻和特定位置调节染色质修饰和目标基因表达是一个重要问题。果蝇基因组有PRE(PcG response element)元件,其专门负责招募PRC2,从而调节附近基因的表达。但目前实验证实哺乳动物基因组中仅存在极少数类似PRE的元件。与此同时,大量实验证实哺乳动物中的长链非编码RNA能和PRC蛋白或DNA甲基化酶(DNMT)结合,大量长链非编码RNA成为PRC和DNMT实施基因组修饰的向导。但是,长链非编码RNA在与PRC或DNMT结合后如何定位到目标基因附近目前尚不清楚。实验研究揭示了两种可能的机制,一种是长非编码利用染色体的3D结构,快速定位到目标基因附近;另一种是长链非编码RNA通过Hoogsteen或反(reverse)Hoogsteen碱基配对规则与DNA序列形成三链结构(triplex),藉此牢固地结合到DNA。有研究者基于若干经典的Hoogsteen与反Hoogsteen碱基配对规则开发了预测短小的ncRNA与DNA结合的软件(triplexator),但该软件有缺陷,迄今未分析典型的长链非编码RNA与DNA的结合。最近,更多的研究揭示,除了经典的Hoogsteen与反Hoogsteen碱基配对规则,还存在其它类型的Hoogsteen及反Hoogsteen碱基配对规则,它们也促成RNA:DNA triplex的形成。因此,全面考虑Hoogsteen与反Hoogsteen碱基配对规则对预测长链非编码RNA的DNA结合域与结合位点非常重要。长链非编码RNA在进化过程中主要表现出以下三个特点。第一,绝大部分长链非编码RNA不编码蛋白,但具有特定结构,这些保守的结构决定了其保守的功能,这些结构也允许它们积累碱基层次的补偿性突变,使得长链非编码RNA序列保守性低而结构保守性高。第二,许多长链非编码RNA含有大量的转座子序列,这意味着长链非编码RNA的起源与进化很可能与转座子活动有关,但是哪些转座子在什么时候插入到哪些长链非编码RNA仍旧不清楚。第三,早在1975年King等人就发现物种之间蛋白编码基因的差异不足以解释物种间表型的差异,后者很可能还与基因表达调控有关。有关研究已揭示长链非编码RNA的表达不仅有显著的组织特异性,而且其形成有显著的种系特异性,这种种系特异性为解释脊椎与哺乳动物基因表达调控进化和表型差异提供了一个新机制,但大量细节有待进一步的研究。上述特点说明长链非编码RNA是相对年轻的一类基因,具有与蛋白质编码基因非常不同的特性,由于其数量众多,其起源、进化与种系特异性不仅需要大量实验研究而且需要大量仔细的计算分析。由于长链非编码RNA功能复杂,不仅调控基因印迹和X染色体失活,而且调控组织特异的基因表达,它们的序列及表达异常会导致各种基因组修饰异常及目标基因表达异常,因此与许多疾病的发生密切相关。例如,HOTAIR在原位及转移乳腺癌中表达量显著增加,ANRIL被发现与30%的肿瘤相关,这使得近几年长链非编码RNA成为肿瘤诊断与治疗方面的重要新方向。此外,大量长链非编码RNA是灵长类特有的,这意味着它们与神经系统发育和人类特有的疾病密切相关。由此,许多实验研究从疾病着手研究长链非编码RNA的功能,揭示它们在疾病发生与发展中的作用。由于长链非编码RNA通常呈组织特异性表达,实验研究仅能揭示特定组织里某些长链非编码RNA的表达、功能以及与疾病的关系。鉴于哺乳动物体内含大量长链非编码RNA,对它们的序列特性与功能特性进行计算研究对揭示长链非编码RNA的功能非常必要。基于以上论据,我们认为长链非编码RNA研究目前面临几个重要的适合于计算分析的问题:(1)具有重要功能的IncRNA起源于哺乳动物进化的什么时期?(2)长链非编码RNA如何获得多个外显子以及功能域?(3)如何预测长链非编码RNA的DNA结合域和结合位点,从而预测长链非编码RNA的靶基因?(4)长链非编码RNA的DNA结合域是否有一个逐渐进化的过程?(5)长链非编码RNA呈现怎样的种系特异性,尤其是,人类与灵长类有哪些特异性的长链非编码RNA?针对这些问题,本研究的主要目的是:(1)揭示若干重要长链非编码RNA的起源;(2)揭示这些长链非编码RNA的进化特点,包括转座子对长链非编码RNA的进化影响;(3)揭示长链非编码RNA的种系特异性,尤其是灵长类或人类特异的长链非编码RNA;(4)揭示长链非编码RNA功能域起源与进化的特性;(5)设计开发预测长链非编码RNA:DNA的结合域与结合位点的算法与软件,分析典型长链非编码RNA的DNA结合域与结合位点。方法针对上述研究目的,本研究采用并发展了如下研究方法。1.识别人类长链非编码RNA在其它物种的直系同源物根据基因组搜索来确定GENCODE项目报道的13562个人类长链非编码RNA和其它实验研究报道的重要长链非编码RNA在其它物种的同源序列。鉴于补偿性突变使得长链非编码RNA的同源序列具有序列保守性低而结构保守性高的特性,BLAST/BLAT不能可靠地搜索长链非编码RNA的同源序列,我们用基于结构比对的RNA搜索软件Infernal来搜索长链非编码RNA在多个物种的同源序列。大规模的基因组搜索在本地服务器和广州超级计算中心的天河二号计算机进行。2.分析长链非编码RNA的序列特征与进化特征用Phylip、MrBayes、MEGA等构建进化树,用PAMIL软件分析进化速度,用EvoNC分析长链非编码RNA相对于参照基因所受的选择压力,用Phylip及MEGA和不同模型计算序列间距离(选用12S和16S rRNA作为中性参考序列),用Pmmulti和RNAalifold进行外显子结构比对,用RNAfold和Mfold预测外显子的保守结构。3.根据人类长链非编码RNA的同源基因揭示人类与灵长类特异性长链非编码RNA我们将13562个人类长链非编码RNA在16个哺乳类动物的直系同源状态转为离散数据,1表示该基因在某物种中存在直系同源基因,0表示该基因在某物种中不存在直系同源基因,然后基于这些离散状态估计长链非编码RNA在系统发育树下的gain/loss事件。4.设计开发预测长链非编码RNA的DNA结合域与结合位点的软件LongTargetLongTarget软件主要立足于三点:全面的Hoogsteen和反Hoogsteen碱基配对规则、局部比对、以及对所有TFO/TTS预测的分析。我们通过系统回顾相关文献整理出24条Hoogsteen和反Hoogsteen碱基配对规则集,对于一段感兴趣的双链DNA区域,根据每一条碱基配对规则集重构四条RNA序列,根据局部比对同时识别一个长链非编码RNA的DNA结合域和这段DNA区域中的长链非编码RNA结合位点。我们用置换检验来评估预测结果的敏感性与专一性。5.考察长链非编码RNA功能域的进化特性使用LongTarget,我们不仅预测人类HOTAIR的DNA结合域,还预测其它物种HOTAIR的DNA结合域,从而揭示HOTAIR DNA结合域的种系差异和进化特性。结果1.HOTAIR的分析结果HOTAIR的直系同源基因仅存在于真哺乳动物中,且外显子表现出种系特异性缺失,HOTAIR exon2在dog、mouse和rat中没有找到直系同源序列,而且HOTAIR的功能域与保守区也表现出种系特异性缺失,长达1800bp的人类HOTAIR exon6在灵长类中有得分较高的较完整的匹配,但在其它哺乳动物匹配的得分很低,尤其是在mouse和rat中仅有很短的匹配,一大段的保守区在mouse和 rat HOTAIR 缺失。外显子表现出不同的进化特性,HOTAIR exon1、exon2和exon6a的一部分位点进化速率很快或者很慢,exonl、exon2、exon4和exon6b在灵长类中替换速率较其它哺乳动物要高,但是exon3、exon5和exon6a在灵长类和其它哺乳动物中的替换速率却差异不大。另外,相比于相邻的HOXC基因,HOTAIR在哺乳动物有更多的正选择信号,提示HOTAIR进化速率较快。HOTAIR exonl有一个相当保守的hairpin子结构,exon6b有一个相当保守的茎环结构,并且这两个子结构在预测的不同的HOTAIR全序列二级结构中稳固地存在,提示它们具有重要功能。特别是,HOTAIR的DNA结合域可能位于3'端(exon6),且可能仅存在于灵长类中。2.ANRIL的分析结果与HOTAIR类似,没有在非哺乳脊椎动物、单孔目哺乳动物和有袋类哺乳动物中发现ANRIL的直系同源物。ANRIL的直系同源序列最早出现于贫齿目(sloth)和非洲兽总目(elephant)中,其基因结构逐渐在劳亚兽总目中丰富起来。但是,一方面,在免形目和啮齿目的分枝中ANRIL的外显子逐渐丢失,进而在mouse和rat中完全丢失,另一方面,在类人猿中ANRIL获得完整的基因结构和19个外显子。ANRIL外显子在早期灵长类(tree shrew,tarsier)呈现出特殊和活跃的进化。多个转座子主要在类人猿插入ANRIL,转座子插入增进了 ANRIL外显子序列与二级结构的保守性。3.人类长链非编码RNA的种系特异性分析结果由GENCODE项目第一期确定的13562个人类长链非编码RNA在其它物种的直系同源基因数目统计如下:单孔目哺乳动物platypus有1008个(7%),chimpanzee有13239个(98%),啮齿目动物中的mouse和rat分别为4416个(30%)和 4099 个(28%)。用mix软件估计了长链非编码RNA在各个祖先节点的gain/loss数量,啮齿目、兔类、树鼩目和灵长目的早期共同祖先有7458个(55%)同源基因,在此之后,同源基因的数量在啮齿目和兔类祖先有逐渐降低的趋势,而在灵长目和树鼩目的祖先则迅速增多,在灵长目祖先增加到10498个(77%)。4.长链非编码RNA的DNA结合域与结合位点预测算法基于24条Hoogsteen和反Hoogsteen碱基配对规则集,开发了预测长链非编码RNA的DNA结合域和结合位点的软件LongTarget,该算法表现出高敏感性和专一性。5.典型长链非编码RNA的DNA结合域与结合位点预测用LongTarget分析了逾20个典型长链非编码RNA,并和Triplexator的预测结果进行了比较,我们发现LongTarget预测出来的DNA结合位点位于目标基因的启动子区域、CpG岛和转座子区域,而且与ChIP-seq实验揭示的染色质组蛋白甲基化区域高度吻合。相比而言,Triplexator的许多预测结果偏离了启动子区域等重要已知调控元件。结论1.HOTAIR和ANRIL起源于真哺乳动物,HOTAIR在进化中获得功能域,而ANRIL则在进化中获得外显子,两个基因都表现出种系特异性进化特征,提示长链非编码RNA序列与功能的种系特异性,也提示长链非编码RNA与种系形成可能有密切关系。2.ANRIL以及其它许多长链非编码RNA的形成与进化与转座子有密切的联系,转座子的插入及驯化对ANRIL外显子的序列、结构、保守性有显著的影响。长链非编码RNA与转座子的关系也是长链非编码RNA种系特异性的一个重要方面。3.根据对13562个人类长链非编码RNA同源基因的分析,我们发现它们表现出明显的种系特异性,且大量人类长链非编码RNA是灵长类特有的,其中约2%是人类特有的。特别是,在单孔目哺乳动物platypus发现了 1008个同源基因,提示部分长链非编码RNA的悠久起源。4.LongTarget性能优于Triplexator,能有效预测长链非编码RNA的DNA结合域与结合位点,具有高敏感性和专一性。5.根据LongTarget的预测结果,许多长链非编码RNA的DNA结合位点不仅落在基因的启动子和CpG位点,而且落在转座子位点,这提示基因组修饰对转座子抑制具有重要作用。
【学位授予单位】:南方医科大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:Q75;Q811.4

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 张沛;高春林;夏正坤;;环形RNA与相关疾病研究进展[J];中华临床医师杂志(电子版);2018年09期
2 刘文宝;;一种快速高质量植物总RNA提取方法介绍[J];山东蔬菜;2007年02期
3 靳伟;张瑞芝;常翠芳;;环状RNA及其生物学功能概述[J];生物学教学;2018年12期
4 孙畅;张朝霞;;环状RNA研究进展[J];国际检验医学杂志;2019年02期
5 苗嘉峰;马小艮;裴卓;赵荣国;李玉红;;特定环状RNA表达与衰老的关系研究[J];现代生物医学进展;2019年01期
6 郭岱昀;;RNA药物的研发现状[J];中国处方药;2019年02期
7 龙志;谢娟;李国庆;;环状RNA在人类疾病中的研究进展[J];西南军医;2018年01期
8 成星宇;申洪;;环状RNA在肺癌研究中的进展[J];中国肺癌杂志;2018年01期
9 房树志;房远;;环状RNA与癌症关系的研究进展[J];生物技术通讯;2018年01期
10 刘芝彤;;隐秘的未知宇宙:心血管环形RNA研究[J];中西医结合心血管病电子杂志;2018年07期
中国重要会议论文全文数据库 前10条
1 张畅斌;尹爱华;何天文;王波;邓文喻;赖有行;;一种经济便捷的手足口病原RNA提取方法[A];广东省遗传学会第九届代表大会暨学术研讨会论文及摘要汇编[C];2014年
2 李园园;陆俊梅;程松;崔振玲;;RNA恒温扩增实时检测技术鉴定鸟分枝杆菌和胞内分枝杆菌[A];第四届中国临床微生物学大会暨微生物学与免疫学论坛论文汇编[C];2013年
3 Jingrong Wang;Junping Kou;Hilda Yau;Wanrong Zong;Tongmeng Yan;Zhi-Hong Jiang;;Protective Effect and Sequences of RNA Fragments from Ginseng's Larger RNAs against Myocardial Ischemia Injury in Mice[A];中国化学会第十一届全国天然有机化学学术会议论文集(第一册)[C];2016年
4 郭晓强;张巧霞;黄卫人;蔡志明;;长链非编码RNA与肾细胞癌发生[A];遗传多样性:前沿与挑战——中国的遗传学研究(2013-2015)——2015中国遗传学会大会论文摘要汇编[C];2015年
5 吴建军;李勋;黄锦坤;杨倜;徐益勤;杨巧媛;蒋义国;;环境化学物暴露血液非编码RNA标志物研究[A];中国毒理学会第七次全国毒理学大会暨第八届湖北科技论坛论文集[C];2015年
6 李成云;梁戈玉;姚文卓;隋静;申娴;张艳秋;马书梅;尹立红;浦跃朴;;胃癌相关长链非编码RNA的鉴定及肿瘤标志物的筛选研究[A];中国毒理学会第七次全国毒理学大会暨第八届湖北科技论坛论文集[C];2015年
7 徐勇;张付全;张克让;Yin Yao Shugart;;精神分裂症中转录因子-微小RNA交互调控网络的异常[A];中华医学会第十三次全国精神医学学术会议论文汇编[C];2015年
8 韩艳华;陈红印;张礼生;;RNA干扰技术在昆虫滞育机制研究中的应用[A];植保科技创新与农业精准扶贫——中国植物保护学会2016年学术年会论文集[C];2016年
9 王小利;吴佳海;舒健虹;牟琼;;高羊茅光周期调控基因RNA干扰表达载体构建[A];中国草学会2013学术年会论文集[C];2013年
10 魏任雄;;长链非编码RNA与男性不育的研究进展[A];中华中医药学会第十四次男科学术大会论文集[C];2014年
中国重要报纸全文数据库 前10条
1 中科院上海生科院上海植物生理生态所 毛颖波;寻找小RNA世界里的另一道风景[N];科学时报;2011年
2 记者 耿挺;RNA剪接基因编辑新方法[N];上海科技报;2018年
3 记者 聂翠蓉;基因检测“神探夏洛克”问世[N];科技日报;2017年
4 本报记者 聂翠蓉;让RNA处理器在活细胞中“奔腾”[N];科技日报;2017年
5 记者 毛黎;脂质分子可提高RNA干扰技术效率[N];科技日报;2009年
6 记者 张小军;RNA:被忽视的“遗传信使”[N];新华每日电讯;2002年
7 记者 陈勇;美科学家发现非典病毒特异RNA片段[N];新华每日电讯;2004年
8 王小京;HIV RNA在全脂母乳中含量最高[N];中国医药报;2004年
9 记者 聂翠蓉;细胞“垃圾”也能变废为宝[N];科技日报;2008年
10 冯卫东 王小龙;英在地球早期环境模拟条件下合成类RNA[N];科技日报;2009年
中国博士学位论文全文数据库 前10条
1 王小辉;EV71感染与应激颗粒以及RNA代谢通路之间的关系研究[D];南京大学;2015年
2 周劲旭;环状RNA芯片联合组织芯片技术对脑胶质母细胞瘤特征性靶标hsa_circ_0008344的研究[D];安徽医科大学;2018年
3 贺莎;对长链非编码RNA序列、进化与种系特异性的计算研究[D];南方医科大学;2015年
4 鲁建飞;基于RNA-Seq技术鉴定鲤疱疹病毒Ⅱ型编码的功能miRNA及miR-C12调控细胞凋亡研究[D];上海海洋大学;2018年
5 樊晓旭;RNA干扰在哺乳动物抗野田村病毒先天性免疫作用机制研究[D];中国农业大学;2015年
6 姜黎;Paraspeckles促进pri-miRNA加工的机制研究[D];武汉大学;2017年
7 申翠翠;人工设计的PPR蛋白特异识别靶标RNA的机制研究[D];华中农业大学;2018年
8 曹晓娜;与Tudor-SN蛋白结合的RNA潜在功能分析及调控方式探讨[D];天津医科大学;2018年
9 韩亚惠;参与茶树类黄酮代谢的编码和非编码RNA的研究[D];安徽农业大学;2018年
10 刘雅君;piRNA鉴定、数据仿真及与疾病的关联分析[D];西安电子科技大学;2017年
中国硕士学位论文全文数据库 前10条
1 陈承晓;十字花科黑腐病菌六个小RNA的功能鉴定[D];广西大学;2012年
2 葛兴枫;tRNA~(His)来源小RNA的发现及其功能初步研究[D];广西医科大学;2015年
3 梁姗姗;SCSMV-P1蛋白抑制RNA沉默的关键结构域及氨基酸定位[D];福建农林大学;2018年
4 夏野峰;肺癌CIRCRNA生物信息学分析与数据库开发[D];华中农业大学;2018年
5 许文舒;CRISPR-Cas9导向RNA对人抑癌基因p53与PTEN的编辑靶点筛选与效率验证[D];吉林大学;2018年
6 孙伟虹;基于RNA-Seq技术的毕赤酵母长链非编码RNA的预测与鉴定[D];江南大学;2018年
7 马立;基于位置权重矩阵的长非编码RNA预测方法研究[D];西南大学;2018年
8 李享云;蛋白质-RNA相互作用预测方法研究[D];大连交通大学;2016年
9 刘济晗;三代RNA测序序列的比对和分析工具[D];哈尔滨工业大学;2018年
10 David Omar Ramirez Valle;单细胞RNA测序法鉴定先天淋巴细胞谱系[D];哈尔滨工业大学;2018年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026