收藏本站
《四川农业大学》 2016年
收藏 | 手机打开
二维码
手机客户端打开本文

微生物16S rRNA基因序列分类单元(OTUs)聚类算法的设计与实现

邓飞龙  
【摘要】:随着第二代测序技术的发展,针对微生物16S rRNA基因的高通量测序除用于人类健康的研究外,在畜牧业生产的各领域也得到了广泛地应用,比如研究肠道微生物结构与宿主经济性状间的关系。该方法有效克服了传统技术的缺陷,但随之而来的困难则在于对海量数据的分析。在16S rRNA测序数据的分析中,最关键的一个环节即是基于序列间相似度的分类单元(Operational taxonomic units, OTUs)聚类,从而用于代表在种或属等分类学水平上的不同物种,其准确程度显著影响到后续分析结果的可靠性。目前已有针对OTUs聚类的算法及软件(如Mothur和UPARSE),但存在假阳性率高、噪音信号强以及很难从生物学角度进行结果解释等问题。因此,本实验针对目前主流软件存在的问题,对OTUs的聚类算法进行了优化设计,并采用C和Python编程语言开发出以先注释后聚类为特点的分析软件(bioOTU);同时,基于模拟和真实数据对bioOTU的准确性与Mothur和UPARSE进行了系统地比较。主要结果如下:(1) bioOTU的算法设计针对通过前期质量控制后得到的干净序列(Clean tags),对所有样本进行合并后去冗余,得到非冗余序列(Unique tags),并记录每条tag的绝对丰度和样本丰度两个信息。将所有的Unique tags同源比对到参考数据库中,基于Bayes算法在属水平上进行物种注释,从而将所有序列区分为能被成功注释和无法被注释两种情况。随后,对被成功注释到同一属中的所有Unique tags进行两两间比对,计算序列间的距离(包括k-mer巨离和遗传距离),依据用户指定的阈值(如0.03)进行OTUs聚类。在此基础上,针对无法被注释的tags,计算它们与在上一步中已得到的OTUs司的平均连接距离(Average linkage distance),同样依据用户指定的阈值判定是否可以加入到已有的OTUs中。从序列注释开始,将以上步骤在不同分类学水平上(属、科、目等)逐级迭代运行,从而得到所有在分类学上已知的OTUs.随后,针对剩下的所有Unique tags,首先使用UCHIME算法进行嵌合体(Chimeras)序列的检测,然后依据绝对丰度和样本丰度两个信息对所有的tags进行排序,采用自下而上的启发式搜索算法(Heuristic algorithm)进行OTUs的从头聚类(de novo clustering),最后得到在分类学上未知的OTUs。(2) bioOTU的软件实现基于Python语言的灵活性与C语言的高效性,本实验采用Python语言搭建bioOTU的主体框架,且以脚本化运行的方式设计实现所有的分析环节。由于序列比对环节需要巨大的计算量,因此采用C语言从最底层改写遗传距离计算等核心环节,同时采用多线程并行计算的设计,从而极显著地提高了计算效率。另外,充分考虑软件使用的友好性,用户只需输入质量控制后的Clean tags, bioOTU在OTUs聚类完成后自动输出所有OTUs的注释信息以及在每个样本(或分组)中的丰度值,即同时实现了OTUs的聚类与注释。bioOTU提供免费下载使用,支持在类Unix操作系统上运行。(3) bioOTU的聚类效果比较分析利用人工模拟微生物群落(Mock community,共包含21个预定物种)的16S rRNA高通量测序数据,分别使用bioOTU、Mothur和UPARSE进行OTUs聚类,均采用默认或推荐的参数。结果发现,bioOTU、Mothur和UPARSE共输出74、311和28个OTUs,其中分别有18、15和18个OTUs被成功注释到预定物种上。通过计算每个OTUs的丰度值并与期望值进行比较,结果发现三个软件得到的物种相对丰度值与期望值间均具有较好的一致性。利用肠道微生物16S rRNA高通量测序的真实数据,对三个软件进行比较分析。结果发现,bioOTU得到了最少的OTUs数量(624个,对比于Mothur的5268,UPARSE的922)。bioOTU和UPARSE在OTUs丰度值上总体接近,但均显著高于Mothur输出OTUs的丰度值。基于同源对比产生金标准序列集,从而计算并使用归一化互信息值(NMI)判定软件聚类结果的准确性。结果显示,bioOTU的NMI值(0.914)要比Mothur的NMI值(0.922)低,但高于UPARSE (0.903)。因此,比较分析结果支持bioOTU的聚类准确性在总体上与该领域的主流软件相当,但在某些指标上则具有更好的表现。
【学位授予单位】:四川农业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q811.4

【相似文献】
中国期刊全文数据库 前10条
1 何立雄;黄新;杨华;张云峰;郑金海;周建国;徐雪平;钟发刚;;绵羊附红细胞体部分16S rRNA基因序列测定和系统进化分析[J];中国人兽共患病学报;2009年06期
2 朱保建;刘朝良;曹甲;李旭全;魏国清;;基于18S rRNA和线粒体16S rRNA基因序列的柳蚕进化分析[J];昆虫知识;2010年02期
3 赵丹彤;刘广纯;王剑峰;;基于12S rRNA和16S rRNA基因序列探讨中国蚤蝇科部分属间的系统发育关系[J];动物学研究;2010年04期
4 罗金;刘光远;田占成;谢俊仁;张萍;;基于18S rRNA基因序列的我国马梨形虫分类学地位分析[J];动物分类学报;2011年01期
5 王友升;何欣萌;张燕;陈玉娟;;1株耐氯霉素腐败微生物的16S rRNA基因序列与碳源代谢指纹图谱分析[J];微生物学杂志;2014年02期
6 苏天凤,江世贵,朱彩艳,吴进锋;粤西镇海湾近江牡蛎线粒体16S rRNA基因序列变异分析[J];湛江海洋大学学报;2004年04期
7 李晶;柯崇榕;杨欣伟;田宝玉;黄建忠;;灰黄霉素高产变株与出发菌株18S rRNA基因序列的比较分析[J];福建师范大学学报(自然科学版);2008年03期
8 高运玲;陈敏;李生伟;蔡应繁;何晓红;刘毅;江明锋;;基于18S rRNA基因序列的毛茛科及近缘植物的分子进化关系研究[J];四川大学学报(自然科学版);2010年02期
9 向福,余龙江,栗茂腾,刘智;用bioperl实现种子植物18S rRNA基因序列的大规模获取[J];华中农业大学学报;2005年04期
10 罗玮;毕春霞;闫志勇;辛晓妮;苏维奇;朱元祺;;嗜麦芽寡氧单胞菌临床株与环境株的16S rRNA基因序列及系统发育分析[J];实用医学杂志;2011年16期
中国重要会议论文全文数据库 前3条
1 马松成;毛华明;陈静;邓卫东;和天宝;;大额牛瘤胃细菌16S rRNA基因序列的分析[A];第四届中国畜牧科技论坛论文集[C];2009年
2 李玉春;董海艳;郑冬;邹红菲;;从12S rRNA基因序列研究麝属各种的系统发育[A];野生动物生态与资源保护第四届全国学术研讨会论文摘要集[C];2007年
3 刘志杰;殷宏;罗建勋;关贵全;马米玲;刘爱红;党志胜;高金亮;任巧云;;我国绵羊无浆体16S rRNA基因序列的同源性比较[A];中国畜牧兽医学会家畜寄生虫学分会第五次代表大会暨第八次学术研讨会论文集[C];2004年
中国硕士学位论文全文数据库 前5条
1 邓飞龙;微生物16S rRNA基因序列分类单元(OTUs)聚类算法的设计与实现[D];四川农业大学;2016年
2 姚大彬;基于16S rRNA和12S rRNA基因序列的帽儿山地区异色瓢虫分子系统发育关系研究[D];东北林业大学;2009年
3 姚艳萍;中国蚱总科部分种类16S rRNA和18S rRNA基因序列的分子进化与系统学研究[D];陕西师范大学;2008年
4 唐优良;基于16S rRNA基因序列的中国鲽形目鱼类分子系统学研究[D];暨南大学;2011年
5 谢院荣;用线粒体12S rRNA基因序列研究寄生蚌螨遗传结构及系统发育[D];南昌大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026