收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop平台的下一代测序数据处理算法研究

方银瑞  
【摘要】:下一代测序技术的发展产生大量的测序短序列,序列比对是将测序短序列映射到参考基因组的过程,对生物同源性分析,SNP位点预测及疾病预测具有重要的研究意义。由于下一代测序数据包含大量的重复序列,处理重复序列会带来不必要的资源消耗,因此序列去重是常见的测序数据预处理操作。现有很多去重和比对的方法,但是这些方法面对大规模测序数据处理存在耗时长、效率低等问题。近年来研究界提出了一些面向大数据的并行处理算法,虽然在数据处理效率上有很大的提升,但依然存在着很大的改进空间,性能还需进一步提高。针对此问题,本文研究并实现基于Hadoop平台的大规模测序序列去重和比对并行化算法,主要研究内容和结论如下:(1)序列去重算法的研究与改进针对测序数据中存在大量的重复序列,本文研究基于前缀后缀思想的并行去重算法,并在此基础上进行改进。算法的改进包括以下两个方面:(1)原始算法去重结果中仍包含基准重复序列,针对此问题,本研究在去重过程中删除基准重复序列,进一步提高了去重率。(2)原始算法去重结果中包含大量低质量序列,针对此问题,本文提出在去重过程中结合质量控制,过滤低质量序列,提升测序数据质量。(2)序列比对算法的并行化实现针对序列比对算法在处理大规模测序数据时效率低的问题,本文通过JNI调用动态库的方式,设计并实现基于Hadoop平台的并行序列比对算法BigBowtie。该算法设计为独立的两个软件层,避免了对原始代码的更改,确保兼容不同Bowtie2版本。并行化序列比对BigBowtie算法分为数据格式转换,数据分发,序列比对,结果汇总四个阶段,实现序列比对算法Bowtie2的并行化,缩短了执行的时间。实验结果表明,本文实现的去重算法去重性能最高提升1.74%,不重复序列最高占比99.75%,碱基质量得分各项指标均有提升,为测序数据下游分析提供可靠的质量保障。本文实现的BigBowtie与串行序列比对算法Bowtie2相比,最大加速比达7.79,减少用时22261s;与已有基于Hadoop的并行算法BigBWA相比,BigBowtie运行的时间更短。


知网文化
【相似文献】
中国期刊全文数据库 前17条
1 李法君;;降解组测序技术及其研究进展[J];生物学教学;2017年04期
2 彭桂兰;陈嘉慧;荣丹箐;;第四代测序技术[J];农村经济与科技;2017年10期
3 王海;;高通量测序技术新名词的理解和辨析[J];中国科技术语;2017年04期
4 权冰娥;李树;;新一代DNA测序技术在法医实践中的应用及其研究进展[J];辽宁警察学院学报;2017年06期
5 郑秋燕;李清;毛华明;冷静;;测序技术的发展对瘤胃元基因组研究的影响[J];黑龙江畜牧兽医;2015年21期
6 韩齐;李媛媛;孙方达;孔保华;陈倩;;新一代测序技术在食品微生物学中的应用[J];食品工业;2016年01期
7 杜兵兵;;第二代高通量测序技术的原理及其在医学中的应用进展[J];中国继续医学教育;2016年03期
8 周莹;许冰莹;;二代测序技术在临床医学上的相关应用[J];昆明医科大学学报;2016年03期
9 乌日拉嘎;徐海燕;冯淑贞;孙志宏;孟和毕力格;张和平;;测序技术的研究进展及三代测序的应用[J];中国乳品工业;2016年04期
10 郭海燕;程国虎;李拥军;张昊;秦康乐;;高通量测序技术及其在生物学中的应用[J];当代畜牧;2016年12期
11 史子学;王秀杰;;高通量测序技术应用于猪病检测的探讨[J];猪业科学;2016年07期
12 张丁予;章婷曦;王国祥;;第二代测序技术的发展及应用[J];环境科学与技术;2016年09期
13 郭俊;李小燕;蔡伦;王绿娅;杜杰;;医学研究生"高通量测序技术"应用能力的培养[J];现代生物医学进展;2016年31期
14 杜玲;刘刚;陆健;刘丑生;哈福;;高通量测序技术的发展及其在生命科学中的应用[J];中国畜牧兽医;2014年12期
15 张媛;肖霞;张俊红;齐力旺;韩素英;;落叶松干细胞发育模型研究中的高通量测序技术[J];生物产业技术;2013年04期
16 周贝贝;刘立;黄彦;肖华胜;;新一代测序技术及其产业化前景[J];生物产业技术;2013年04期
17 李明辉;杨振兴;侯睿;魏应亮;肖华胜;;新一代测序技术在临床检测中的应用[J];生物产业技术;2013年06期
中国重要会议论文全文数据库 前10条
1 赵洁;赵志军;贾伟;师志云;赵颖;张玉英;赵玥;魏军;;新一代测序技术及其应用[A];第三届中国临床微生物学大会暨微生物学与免疫学论坛论文汇编[C];2012年
2 何彪;涂长春;;下一代测序技术的应用及展望[A];中国畜牧兽医学会家畜传染病学分会第八届全国会员代表大会暨第十五次学术研讨会论文集[C];2013年
3 柳延虎;王璐;于黎;;单分子实时测序技术的原理与应用[A];遗传多样性:前沿与挑战——中国的遗传学研究(2013-2015)——2015中国遗传学会大会论文摘要汇编[C];2015年
4 赵玥;赵志军;贾伟;师志云;;454高通量测序技术及其在临床上的应用[A];第三届中国临床微生物学大会暨微生物学与免疫学论坛论文汇编[C];2012年
5 李晓峰;刘公社;;利用454测序技术大规模挖掘羊草抗逆转录因子的研究[A];中国草学会牧草育种委员会第七届代表大会论文集[C];2009年
6 古其会;吴清平;张菊梅;吴慧清;孙铭;;高通量测序技术在饮用水微生物多样性研究中的应用[A];中国食品科学技术学会第十三届年会论文摘要集[C];2016年
7 杨刚;吴镝;张娟;张丽芳;马多;蒋丽娜;李梦龙;文志宁;;统计学方法在mRNA-Seq中的应用[A];中国化学会第28届学术年会第14分会场摘要集[C];2012年
8 江泓;陈召;唐北沙;;应用二代测序技术诊断3个毛细血管扩张性共济失调家系[A];中华医学会第十八次全国神经病学学术会议论文汇编(下)[C];2015年
9 倪培相;;新一代高通量测序技术在微生物基因组学研究中的应用[A];2010年中国科学院微生物研究所博士后学术年会暨第二届博谊论坛论文摘要集[C];2011年
10 刘学冬;;新一代测序技术对法医学DNA分析的影响[A];法医临床学专业理论与实践——中国法医学会·全国第十八届法医临床学学术研讨会论文集[C];2015年
中国博士学位论文全文数据库 前10条
1 Arslan Mehboob;利用转录组测序技术研究鸡lambda干扰素在鸡细胞及器官中介导的免疫信号通路[D];中国农业科学院;2019年
2 朱家楼;泌尿系统相关肿瘤基因组学研究[D];武汉大学;2017年
3 陈科;二代测序平台进行核酸检测的新技术研究[D];东华大学;2018年
4 平捷;高通量测序技术在个性化医疗中的应用[D];上海交通大学;2012年
5 谢为博;基于表达谱芯片和新一代测序技术的高通量基因分型方法的开发[D];华中农业大学;2010年
6 林强;应用第二代高通量测序技术研究哺乳动物转录组以及转录调控机制[D];中国科学院北京基因组研究所;2011年
7 浦丹;两核苷酸实时合成测序技术及其应用研究[D];东南大学;2015年
8 王娜;应用新一代测序技术对肾透明细胞癌转录组的研究[D];吉林大学;2012年
9 聂小军;基于高通量测序技术的小麦和紫茎泽兰基因组学初步研究[D];西北农林科技大学;2013年
10 李秋实;基于SMRT测序技术的药用植物遗传序列研究[D];北京协和医学院;2015年
中国硕士学位论文全文数据库 前10条
1 方银瑞;基于Hadoop平台的下一代测序数据处理算法研究[D];西北农林科技大学;2019年
2 刘娇;采用高通量测序筛选MC4R下游基因表达谱及验证[D];郑州大学;2019年
3 李盛源;新一代高通量测序数据校正方法研究[D];哈尔滨工程大学;2018年
4 潘笑;盐胁迫甘草愈伤组织转录组测序分析[D];河北大学;2018年
5 吴德亮;基于降维与聚类的单细胞RNA测序数据分析[D];哈尔滨工业大学;2018年
6 邵韦涵;利用高通量测序技术对“黄优1号”黄颡鱼杂交优势的初步解析[D];华中农业大学;2018年
7 于凤娇;深度测序技术用于MSM人群HIV传播网络构建及分析[D];中国疾病预防控制中心;2018年
8 阿霄;SLE患者PBMC中lncRNAs的表达及其临床表现相关性研究[D];昆明医科大学;2018年
9 曹建军;基于高通量捕获测序技术的肺癌靶向药用药指导基因检测方法[D];华南理工大学;2017年
10 杨冰清;基于单细胞测序数据的细胞亚型发现研究[D];华中师范大学;2018年
中国重要报纸全文数据库 前10条
1 本报记者 刘丹;纳米测序商业化在即[N];中国科学报;2012年
2 李响 李金山;新单细胞DNA甲基化测序技术可应用于不同物种[N];中国科学报;2019年
3 记者 罗晨;“下一代测序技术”发力食品检测[N];中国食品报;2019年
4 记者 张梦然;测序技术找到16世纪灾难性流行病罪魁祸首[N];科技日报;2018年
5 本报记者 孙玉松;基因快捷测序,服务更多“朱莉”们[N];科技日报;2018年
6 中国妇女报·中华女性网记者 刘月辉 富东燕;朱岩梅:基因科技造福人类[N];中国妇女报;2017年
7 记者 刘海英;83个罕见基因变异可显著影响身高[N];科技日报;2017年
8 记者 王思琪 王悦;基因检测上游壁垒高筑[N];第一财经日报;2017年
9 胡阳 本报记者 沈洪;瞄准“改变世界的技术”[N];中国质量报;2017年
10 本报记者 刘喜梅;一位菲籍船员的中国救治之路[N];人民政协报;2017年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978