收藏本站
《中山大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于系统发育基因组学分析解决困难进化问题的策略研究

陈梦云  
【摘要】:随着高通量测序技术的快速发展,分子系统发育学进入了以海量数据为特征的系统发育基因组学时代(phylogenomics)。组学大数据给分子系统发育学带来了前所未有的机遇,许多传统系统发育学难以解析的生物类群进化关系通过增加数据有了明确的结果。然而随着研究的深入,学者们发现在海量数据中,“信号”与“噪音”是并存的。当我们探究少数十分棘手的系统发育关系时(例如经历快速辐射性进化类群的亲缘关系),使用现有的分析方法可能出现稀少的真实“信号”(phylogenetic signal)被系统误差引起的“噪音”(phylogenetic noise)完全掩盖的情况,致使我们得出一个解析度高但不能反映真实进化历史的系统发育关系。本论文的工作在于试图突破现有的数据分析瓶颈,从提出新的数据分析思路及选择新的数据类型入手,运用海量数据解决极具争议的有颌类脊椎动物系统发育框架及劳亚兽总目各目间亲缘关系问题。Ⅰ.有颌类脊椎动物系统发育基因组学研究如何从海量数据中筛选出真实的“信号”,降低数据中存在的“噪音”,以得到一个稳定且真实的系统发育关系是系统发育基因组学研究的重要课题。目前常见的提升数据质量的方法包括选择更完整的数据集、选择进化历程与现有模型更匹配的慢速进化的基因等等。但缺乏实例对这些数据筛选方法进行横向评估比较。有颌类脊椎动物系统发育框架上许多节点即使进入大数据时代仍颇具争议,使得其成为检验现有数据筛选方案的绝佳例子。本研究基于新测的10个有颌类脊椎动物物种的转录组数据结合公共数据库中的基因组及转录组数据,构建了一个包含58个物种,4682个蛋白质编码基因的氨基酸数据集,用于探索有颌类脊椎动物系统发育框架问题。另外,我们选取了有颌类脊椎动物系统发育树上六个具有争议的节点作为测试对象,对已有的数据筛选方案进行分析及评估。结果显示,每个测试问题均存在大量的冲突信号,而现有的数据筛选方案在解决具有多个困难问题的系统发育关系时,提升数据信噪比的效果不佳,筛选数据建树结果不稳定且高度不一致,重建的系统发育关系会随着数据集大小及建树方法的不同而发生改变。基于此现象,我们提出了问题针对型(question-specific)数据筛选策略,即针对每个困难问题生成特定的筛选数据集。该策略包括两种不同的方法,方法一为明确表态法,即将不能明确支持有关困难问题所有假说中任意一种的基因从数据集中删除。方法二为节点原则法,是指所选的基因必须能够支持与研究问题具有相关性的特定的拓扑结构。经检验,问题针对型数据筛选策略在六个测试对象中均有效地提高了数据信噪比,所得结果具有鲁棒性。利用目前最大的有颌类脊椎动物数据集,我们提供了一个可靠的有颌类脊椎动物系统框架。除此之外,我们的结果再次证明了简单的增加数据在解决某些难点问题时是远远不够的。我们提出的问题针对型数据筛选策略也为今后解决生命之树上的困难节点提供了新思路。Ⅱ.劳亚兽总目系统发育基因组学研究厘清经历辐射性进化(rapid radiation)类群的亲缘关系一直是困扰进化生物学家的难题。各物种在极短的时间完成物种分化及形成意味着仅有很少的能够反应真实进化历史的“信号”得以在序列中积累。出于数据的易得性及易操作性,现有大部分研究都以进化速度较慢的蛋白质编码序列作为数据源进行系统发育学分析,而鲜少使用进化速度更快的非编码区序列推断快速辐射类群的亲缘关系。劳亚兽是经历快速辐射性进化的代表类群,其各目间亲缘关系一直存在很大争议,且前人研究大多基于蛋白质编码序列。为了解决这一历史难题,我们利用公共数据库中基因组数据构建了两个数据集,物种取样涵盖了除鳞甲目之外的其他5个目代表物种,形成由3638个基因构成的全长为19,055,073 bp的内含子数据集及由10259个基因构成的全长为20,994,285 bp的蛋白质编码序列数据集,并分别采用超级矩阵方法及基于溯祖理论的物种树方法对劳亚兽各目间发育关系进行推断。数据分析结果表明,内含子数据相比于蛋白质编码数据在解决劳亚兽问题中有更强且匀质的系统发育信号。对建树结果比较发现,内含子数据使用两种方法建树所得拓扑结构一致,且所有节点以支持率100%解析,而蛋白质编码序列得到的拓扑结构不一致,且得到的系统发育关系解析度低。为了检验内含子的高解析度系统发育树不是由于系统误差造成的错误结果,我们通过不同数据筛选条件对内含子数据进行重采样并建树,并对蛋白质编码序列数据集做同样处理。同时本研究还探究了不同外类群的组合方式对内含子建树及蛋白质编码序列建树的影响。研究结果表明,数据重采样及外类群的选择对内含子数据构建的系统发育树影响极小,而蛋白质编码序列构建的系统发育树会随着数据筛选条件的不同及外类群的不同组合产生巨大变化。除此之外,通过统计数据中单基因树拓扑结构我们发现,无论是内含子数据集还是蛋白质编码序列数据集,出现频率最高的单基因树的拓扑结构与内含子完整数据集建树结果相同,说明从单基因树频率来看,蛋白质编码序列数据中“信号”与内含子数据内部是一致的。利用目前最大的非编码的内含子序列数据集重建劳亚兽各目间亲缘关系,我们得到了一个稳定且完全解析的系统发育关系,所得结果支持真盲缺目位于劳亚兽的基出位置,剩下四个目分为两支,奇蹄目与翼手目关系更近,鲸偶蹄目与食肉目为姐妹类群。这一全新的系统发育关系假说,向揭示劳亚兽的生命之树又迈进了一步。同时,我们的分析说明了包含有更多“信号”的内含子数据将是未来解决生命之树上其他经历快速辐射性进化的困难节点的重要数据类型。
【学位授予单位】:中山大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:Q349

【参考文献】
中国期刊全文数据库 前3条
1 王章群;解增言;蔡应繁;舒坤贤;黄飞飞;;系统发育基因组学研究进展[J];遗传;2014年07期
2 邹新慧;葛颂;;基因树冲突与系统发育基因组学研究[J];植物分类学报;2008年06期
3 于黎;张亚平;;系统发育基因组学——重建生命之树的一条迷人途径[J];遗传;2006年11期
【共引文献】
中国期刊全文数据库 前10条
1 何亚涛;陈倩;陆梅颖;刘俊林;;基于NCBI单基因ITS序列的散囊菌目系统发育学探讨[J];西北民族大学学报(自然科学版);2017年03期
2 常艳芬;;铁角蕨科的多倍化与物种多样性形成[J];生物多样性;2017年06期
3 舒江平;刘莉;沈慧;戴锡玲;王全喜;严岳鸿;;基于系统基因组学分析揭示早期陆生植物的复杂网状进化关系[J];生物多样性;2017年06期
4 陈泓宇;陈艳艳;李蓉;肖蘅;陈善元;;代表性鱼类物种全基因组测序研究进展[J];生物学杂志;2017年06期
5 刘博;饶淇;石敏捷;丁加晴;雷小英;刘东阳;覃武全;;山矾属植物传统利用价值的民族植物学研究[J];中央民族大学学报(自然科学版);2017年02期
6 丁奕然;胡小强;黄义梅;徐晓静;谭秋明;;基于国家自然科学基金分析重庆市各高校生命科学研究情况[J];西南师范大学学报(自然科学版);2017年01期
7 闫春财;郭琴;赵广君;戈昕宇;王新华;刘婷;;常用基因序列在摇蚊科昆虫系统发育研究中的应用进展[J];天津师范大学学报(自然科学版);2016年06期
8 陈万浩;韩燕峰;梁建东;邹晓;梁宗琦;金道超;;蛛生真菌中一枝穗霉属新种[J];菌物学报;2016年09期
9 张宏海;汪洋;张晓琳;王婧;;一株产赭曲霉毒素A黑曲霉及其产毒条件[J];菌物学报;2017年04期
10 鲁丽敏;陈之端;路安民;;系统生物学家最终能得到完全一致的生命之树吗?[J];科学通报;2016年09期
【二级参考文献】
中国期刊全文数据库 前10条
1 金逍逍;孙悦娜;王日昕;汤达;赵盛龙;徐田军;;虾虎鱼类线粒体全基因组序列结构特征分析及系统发育关系探讨[J];遗传;2013年12期
2 杨婧;黄原;汪晓阳;;直系同源基因的识别方法与数据库[J];生命科学研究;2013年03期
3 张丽丽;程起群;;鳀科鱼类线粒体全基因组序列结构特征及系统发育信息分析[J];海洋渔业;2012年01期
4 华蔚颖;徐昭;张梦晖;李旻;张晨虹;赵立平;;CVTree在454高通量测序分析菌群结构中的应用[J];中国微生态学杂志;2010年04期
5 钟华明;张洪海;沙未来;张承德;陈玉才;;赤狐线粒体全基因组及系统发育分析(英文)[J];动物学研究;2010年02期
6 赵建邦;高琳;宋佳;;一种基于代谢路径构建系统发生树的有效方法[J];电子学报;2009年08期
7 邹新慧;葛颂;;基因树冲突与系统发育基因组学研究[J];植物分类学报;2008年06期
8 于黎;张亚平;;系统发育基因组学——重建生命之树的一条迷人途径[J];遗传;2006年11期
9 李建伏;郭茂祖;;系统发生树构建技术综述[J];电子学报;2006年11期
10 傅静,孙啸;基于全基因组的系统发生分析[J];生物技术;2003年06期
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026