收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于新一代测序技术的关联分析研究和群体结构理论

萧恺昌  
【摘要】:新一代的高通量全基因组测序技术能够有效地探测出整条染色体的所有遗传变异,从而绘制出全基因组的变异图谱,是全面而系统地探测群体内常见变异(MAF5%)、低频变异(0.5%MAF≤5%)和自有变异(MAF≤0.5%)的强有力工具。千人基因组计划,正是采用了新一代测序技术,致力于检测出MAF=1%水平的群体遗传变异,作为未来关联分析的基础,提供包含单核苷酸多态性(SNP)、插入缺失(INDEL)和拷贝数变异(CNV)在内的生物遗传信息,是目前为止最大规模、测序覆盖密度最高的全基因组测序数据。面对如此丰富的数据资源,我们进行了大量的工作,根据课题的进度,主要分为两个阶段,其中不少研究成果已经整理并发表。 第一阶段的工作,我们主要研究了新一代高通量测序技术下疾病关联分析的特点。 在过去十多年,典型的全基因组关联分析只考虑了常见变异的情况,而用以检验低频变异和自有变异的方法及相关研究却还没有得到很好地发展。为了寻求突破,我们使用千人基因组计划的常染色体的单核苷酸多态性数据作为下一波关联分析方案设计的参考基础,从低频变异领域出发,探讨未来的全基因组关联分析新的时代,现有的关联分析研究方法是否依然有效可用,针对疾病关联分析应该如何制定新的不同研究方案。 我们首先研究low coverage pilot中常见SNP、低频SNP之间的连锁不平衡模式,图解说明与过往常见SNP截然不同的连锁不平衡分布模式。我们发现低频SNP与低频SNP之间的连锁不平衡,和低频SNP与常见SNP之间的连锁不平衡都比常见SNP与常见SNP之间的连锁不平衡要弱得多。其次,我们又设计了一系列的SNP标签实验,说明了由于弱连锁不平衡,使得我们无法再用传统的芯片设计那样,通过标签出一系列的SNP组成一个新的检测芯片以达到覆盖所有已知位点的目的。我们的实验是假设将low coverage pilot检测出的所有的SNP都作为“虚拟芯片”(Pilot 14M)的标签位点,我们发现即使如此,Pilot14M也无法全部覆盖到exon pilot中那些随着群体样本改变而层出不穷的低频位点信息,我们还考虑了对缺失数据进行插补的情况,但仍然观察到有45.4%的低频SNP无法被虚拟芯片所检测出,Pilot 14M对低频SNP的覆盖率仅仅只有67.7%。最后我们采用exon pilot中CEU人群的随机外显子区域数据集,将Pilot 14M、Illumina 1M和全基因组测序技术并列计算出它们在疾病与潜藏位点关联分析时不同的效能表现。我们一共设计了4种疾病遗传模型,制定了一系列的参数策略方案,通过数据模拟,分别计算了不同情况下对于潜在致病位点的检测效能。我们发现在常见SNP领域,传统基因分型芯片的检测效能够达到疾病关联分析的要求,但在低频SNP领域,即使将研究样本模拟到一个很大的数量,传统基因分型芯片的检测效能不是非常乐观,无法达到全基因组测序技术同样的高度。为了说明实验结果的群体普遍性,我们也对CHD人群进行了同样的研究步骤,结果是一致的。 我们的结论是基于已知SNP序列而设计的全基因组关联分析方式都将不能适用于低频SNP领域,对于新一代全基因组的测序数据,我们需要制定新的策略,使用新的方法来进行与低频SNP相关的关联分析研究。 第二阶段的工作,我们主要研究了新一代高通量测序技术下群体遗传分析的特点。 千人基因组计划为揭示人群遗传可变性的分布、鉴别人群结构和推断自然人群的人口演变历史提供了丰富的资源,但新的测序技术也带来新的挑战,主要体现在三个方面:测序误差、组装错误和数据缺失。流行的群体遗传分析手段是主成分分析(PCA),它对数据的异常值和缺失值都非常敏感,因此,我们将流形学习的局部线性嵌入方法引入到群体遗传分析中,局部线性嵌入能够很好地克服维数灾难,揭示出隐藏在高维数据空间的低维流形群体结构。 我们采用了丰富多样、各具特色的群体遗传数据,从大洲群体到祖孙三代家系,详细讨论了局部线性嵌入在刻画群体结构特征的独到之处。我们发现通过相邻点的信息对数据点进行重构,能够有效地克服异常值和数据缺失,我们还留意到将高维数据映射到低维空间的表达时能够对群体分类体现出一种“群体特征向量”的新的概念,我们又从数学层面论证了主成分分析和局部线性嵌入的联系,我们尝试提出在群体结构分析方面,局部线性嵌入是一种比主成分分析更为优胜的分析手段。 接下来,我们以局部线性嵌入为通用的群体遗传分析框架,并发展了一种新的统计量,将整条染色体区域等分切割,将区域内所有遗传变异信息进行整合,结合计算得到群体特征向量,套用LASSO回归分析,进一步讨论和传统的区域富集分析手段(如fisher exact test)的不同之处。我们采用low coveragepilot数据集,以CEU群体为例,分别得到这两类方法在CEU群体特征向量下的显著关联位点或者区域。对于常见SNP,我们分别在CEU、YRI和ASI人群中观察到25.1%、44.9%和21.4%的与群体特征向量显著关联的位点,而在低频SNP领域,显著位点所占的百分比更加高,分别有89.2%,92.4%和75.1%,说明了绝大部分的低频SNP具备群体结构信息,而且从低频SNP比常见SNP在所有位点占有比例更高的现象来看,我们推断低频变异是形成近代群体的主要因素。 我们还使用了自然选择方式,同样得到群体内一系列与群体整体差异度较大的染色体区域,与LASSO方式显著关联区域一起,我们抽查了几个典型染色体区域,比较它们在等位基因频率分布和连锁不平衡模式上的特征。我们初步发现与群体特征向量显著相关的区域往往存在着其对应群体有着区别其它群体的更强的连锁不平衡现象。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;第三代测序技术简介[J];生物医学工程与临床;2011年02期
2 马永平,易发平;焦磷酸测序技术及其在分子生物学领域的应用[J];国外医学.分子生物学分册;2003年02期
3 肖莉;殷宇芳;廖端芳;张佳;李凯;;1000美元基因组计划的可行性分析[J];南华大学学报(医学版);2007年03期
4 叶丙刚;汪德鹏;李京湘;周妍;吴效明;;高通量基因测序相位问题的校正研究[J];计算机应用;2010年04期
5 孙敬,陈宏,彭景楩;筛选差别表达基因的方法及其应用新进展[J];动物学杂志;2004年05期
6 赵寿元;人类基因组计划研究现状[J];中国生物工程杂志;1991年04期
7 邱超;孙含丽;宋超;;DNA测序技术发展历程及国际最新动态[J];硅谷;2008年17期
8 代应贵;韩雪;张晓杰;;小口白甲鱼都柳江种群mtDNA D环的序列变异及遗传多样性[J];动物学杂志;2010年02期
9 孟广震;;DNA测序技术又一个新突破[J];生物工程学报;1987年01期
10 李一锋;尤平;赵志虎;;染色体构象俘获技术及其研究进展[J];生物技术通讯;2010年06期
11 安仕萍;闫莉娜;;测序技术在人类白细胞抗原基因分型领域的应用进展[J];医学综述;2007年15期
12 ;Roche 454测序技术[J];生物医学工程与临床;2011年02期
13 季敬璋;张洁;吕建新;;CEQ~(TM)8800型遗传分析系统检测DNA序列的影响因素研究[J];温州医学院学报;2006年06期
14 李明君;;中国医学界专家欢迎基因测序技术走入临床——记“北京同仁医院基因测序技术临床应用学术研讨会”[J];遗传;2011年08期
15 刘国庆;曾艳丽;魏君锋;王俊洁;周元平;;基因序列拼接算法设计[J];计算机应用与软件;2010年05期
16 ;Illumina Solexa测序技术[J];生物医学工程与临床;2011年02期
17 刘蓉蓉;;高等植物基因组测序回顾与展望[J];生物技术通报;2011年05期
18 余仲东,张星耀,曹支敏;真菌核糖体基因间隔区研究概况[J];西北林学院学报;2000年02期
19 张美兰;仇效坤;曾溢滔;;一种新的DNA测序法——双链DNA循环测序技术[J];中华医学遗传学杂志;1993年01期
20 ;封面说明[J];现代生物医学进展;2011年03期
中国重要会议论文全文数据库 前10条
1 杨旭;;新一代测序技术在探索传染病遗传易感性方面的应用[A];新观点新学说学术沙龙文集43:传染病的遗传易感性[C];2010年
2 倪培相;;新一代高通量测序技术在微生物基因组学研究中的应用[A];2010年中国科学院微生物研究所博士后学术年会暨第二届博谊论坛论文摘要集[C];2011年
3 林小涵;李滢;罗红梅;孙超;陈士林;;基于454 GS FLX测序平台的银杏转录组学研究(摘要)[A];全国第9届天然药物资源学术研讨会论文集[C];2010年
4 林小涵;李滢;罗红梅;孙超;陈士林;;基于454 GS FLX测序平台的银杏转录组学研究[A];2010年中国药学大会暨第十届中国药师周论文集[C];2010年
5 杨碧澄;徐达文;;全基因测序技术介绍及其在藻类中的应用[A];庆祝中国藻类学会成立30周年暨第十五次学术讨论会摘要集[C];2009年
6 李晓峰;刘公社;;利用454测序技术大规模挖掘羊草抗逆转录因子的研究[A];中国草学会牧草育种委员会第七届代表大会论文集[C];2009年
7 刘进元;;采用高通量序列分析技术进行植物microRNA的比较组学研究[A];中国生物化学与分子生物学会农业生物化学与分子生物学分会第八次学术研讨会论文集[C];2008年
8 王军一;明瑶;;水产生物基因组学研究进展[A];渔业科技创新与发展方式转变——2011年中国水产学会学术年会论文摘要集[C];2011年
9 陆祖宏;;与疾病相关的SNP筛选以及低成本快速全基因组DNA测序技术[A];中国化学会第十一届胶体与界面化学会议论文摘要集[C];2007年
10 杨刚;吴镝;张娟;张丽芳;马多;蒋丽娜;李梦龙;文志宁;;统计学方法在mRNA-Seq中的应用[A];中国化学会第28届学术年会第14分会场摘要集[C];2012年
中国博士学位论文全文数据库 前10条
1 平捷;高通量测序技术在个性化医疗中的应用[D];上海交通大学;2012年
2 曾慧敏;应用高通量测序研究儿童血液系统疾病发病机制[D];北京协和医学院;2011年
3 王娜;应用新一代测序技术对肾透明细胞癌转录组的研究[D];吉林大学;2012年
4 周彦;基于MeDIP-seq和MRE-seq数据的统计方法及理论研究[D];东北师范大学;2013年
5 吴金雨;基于高通量测序的DNA甲基化相关生物信息学工具的开发[D];中国科学技术大学;2014年
6 孙秀东;大蒜转录组测序及核因子YB3的功能研究[D];山东农业大学;2013年
7 李滢;基于高通量测序技术的药用植物表达序列标签系统的构建与应用[D];中国协和医科大学;2010年
8 李粤;microRNA深度测序数据分析的生物信息学算法及应用[D];苏州大学;2012年
9 谢为博;基于表达谱芯片和新一代测序技术的高通量基因分型方法的开发[D];华中农业大学;2010年
10 戴毅;应用基因芯片捕获和新一代高通量测序技术建立Duchenne/Becker型肌营养不良基因诊断平台及相关临床应用[D];北京协和医学院;2013年
中国硕士学位论文全文数据库 前10条
1 孙明辉;基于第二代测序技术的小片段组装系统[D];吉林大学;2011年
2 刘元;第二代测序技术对于肝细胞癌的研究[D];第二军医大学;2012年
3 张静;全外显子组测序在原发性纤毛运动障碍分子遗传学诊断中的应用[D];中国人民解放军医学院;2013年
4 魏晶;高通量测序技术分析肺结核患者和潜伏感染者PBMC基因表达谱差异[D];华南理工大学;2013年
5 毕鹏程;基于BWT的DNA从头测序重叠群生成算法[D];哈尔滨工业大学;2012年
6 王丹丹;嗜水气单胞菌胁迫下东北林蛙皮肤转录组Solexa测序及表达谱分析[D];东北林业大学;2012年
7 华蔚颖;应用454测序技术分析菌群结构的方法学研究[D];上海交通大学;2010年
8 陈传艺;针对新一代测序技术的序列拼接算法研究[D];福建农林大学;2012年
9 陈旭;基于目标区域捕获芯片及Solexa测序技术的血管紧张素原AGT基因变异与肺血栓栓塞症(PTE)相关性研究[D];北京协和医学院;2013年
10 周帆;基于第二代高通量测序技术中国大肠癌病例大肠癌相关基因单核苷酸多态性分析[D];浙江大学;2013年
中国重要报纸全文数据库 前10条
1 深圳特区报记者 谭大跃 实习生 李中迪 记录整理;大熊猫被选为测序对象[N];深圳特区报;2010年
2 记者 曹丽君;美研究人员发明基因组快速测序技术[N];光明日报;2005年
3 葛秋芳;美开发“快速”基因测序技术,省时又省钱[N];新华每日电讯;2008年
4 深圳特区报记者 谭大跃 通讯员 刘旭林 梁淡丽;华大基因年内登上“云”端[N];深圳特区报;2011年
5 记者 第五燕燕;400多位学者聚深话基因谈合作[N];深圳特区报;2009年
6 张思;基因研究,飞入寻常百姓家?[N];中国医药报;2008年
7 田池;研究远古生物启用新型基因测序器[N];大众科技报;2006年
8 葛秋芳;新技术测序个人基因组图谱公布[N];江苏科技报;2008年
9 记者 贾少强 通讯员 王静思;华大基因为200个丹麦人进行基因测序[N];深圳商报;2010年
10 记者 刘传书;我国基因测序技术设备实现“零”突破[N];科技日报;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978