收藏本站
《中国科学技术大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

组学大数据环境下的基因信息并行处理与分析方法研究

黄芝准  
【摘要】:随着下一代测序技术的不断发展和逐渐成熟,高通量测序已经成为生物、医学研究中的常规工具,也即将在农业和医疗等行业中得到广泛应用,促生了精准医疗和分子育种等新兴产业。不同以往的低通量技术,高通量测序技术所产生的多种组学(全基因组、全外显子组、转录组、宏基因组等)数据具有通量高、数据量大、复杂异质等特点,所涉及的处理与分析步骤多且繁琐,对数据处理的软、硬件都提出了较高的要求。如何快速、高效处理和分析高通量测序数据成为高通量测序技术广泛应用的瓶颈。比如,当前受到广泛关注的精准医疗主要依赖于基因测序技术,如何高效处理和分析海量的病人的基因测序数据,从中获取个性化的癌变驱动信息成为实现肿瘤精准诊疗的关键和难点问题。基因测序技术从第一代测序技术发展到当前最新的第三代测序技术,其测序通量爆炸性增长。第一代测序技术的通量仅仅只有0.2MB/run,而以Illumina为代表的第二代测序技术其通量能达到1500GB/run左右,第三代测序技术的通量更是达到了 30-400bp/s。测序技术的进步为相关的生物、医学研究提供了有力的支持,但是如何解决海量的测序数据成为急需解决的学术和行业难题。为了解决上述问题,本文基于Hadoop系统设计并实现了一套高通量测序数据自动化并行处理系统(SeqReduce),其主要的目的是利用计算机集群,为海量的测序数据分析提供一款高效、稳定、低廉的自动化处理工具。该系统的核心设计思想是通过MapReduce并行运算框架对相关测序数据进行分割、对比、信息查询,最后输出突变基因信息文件或者转录本文件。该系统具有以下几个优点:(1)该款工具能够同时兼容多种测序平台包括主流的Illumina以及Roche 454等所产生的测序数据。(2)该款工具不仅能够处理DNA-seq的数据,还能够对RNA-seq数据进行分析处理。(3)为了使该工具能够适应不同的硬件坏境,设计了两种不同的并行处理模式,分别是低性能模式和高性能模式,使得该工具能够适应不同配置条件的硬件环境。
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:Q811.4;TP311.13

【参考文献】
中国期刊全文数据库 前8条
1 赵兴芝;臧丽;朱效丽;谭凤华;;云计算概念、技术发展与应用[J];电子世界;2017年03期
2 于颖彦;;胃癌精准诊疗中的基因组学测序技术与应用[J];外科理论与实践;2017年01期
3 陈凤珍;李玲;操利超;严志祥;;四种常用的生物序列比对软件比较[J];生物信息学;2016年01期
4 杭渤;束永前;刘平;魏光伟;金健;郝文山;王培俊;李斌;毛建华;;肿瘤的精准医疗肿瘤的精准医疗:概念、技术和展望[J];科技导报;2015年15期
5 高静;焦雅;张文广;;高通量测序序列比对研究综述[J];生命科学研究;2014年05期
6 刘朋虎;林冬梅;林占熺;李晶;;DNA测序技术及其应用研究进展[J];福建农业学报;2012年10期
7 倪桂强;李彬;罗健欣;张雪;;BWT与经典压缩算法研究[J];计算机与数字工程;2010年11期
8 孙海汐;王秀杰;;DNA测序技术发展及其展望[J];科研信息化技术与应用;2009年03期
中国硕士学位论文全文数据库 前2条
1 林晶晶;基于Hadoop的人类全基因组重测序数据处理技术的研究及实现[D];东北石油大学;2015年
2 李娇龙;基于Hadoop的云计算应用研究[D];电子科技大学;2014年
【共引文献】
中国期刊全文数据库 前10条
1 曲春浦;刘关君;;小黑杨种子中mRNA的鉴定及生物信息学分析[J];贵州农业科学;2017年10期
2 余世洲;曹培健;李泽锋;林世锋;张洁;郭玉双;余婧;任学良;;基于烟草基因组重测序数据的SNP提取软件组合比较[J];烟草科技;2017年10期
3 林琳;;云计算对管理会计的影响研究[J];安阳师范学院学报;2017年05期
4 尉丁;边惠洁;徐静;陈志南;;面向精准医学的医学细胞生物学的教学探索[J];现代肿瘤医学;2017年22期
5 赵雪玉;吴蓉;王军红;;基于PubMed的肿瘤学研究热点与趋势聚类分析[J];人民军医;2017年09期
6 王文东;刘继梅;;基于蚁群算法的云计算资源调度研究综述[J];电脑知识与技术;2017年23期
7 颜怀超;向前;;大数据与精准医疗时代肿瘤诊治策略[J];现代医学与健康研究电子杂志;2017年03期
8 赵欣;王鑫超;金小橹;姚清;;新一代高通量测序技术在卫生检验检疫方向的应用[J];人人健康;2017年12期
9 苏路阳;赵素芬;杜泽清;;卵巢癌的精准医疗[J];世界最新医学信息文摘;2017年43期
10 马镇;苏彧;;精准医学在胃肠道肿瘤中的应用及对复发转移的影响[J];中华普外科手术学杂志(电子版);2017年02期
中国硕士学位论文全文数据库 前3条
1 张洋;基于Spark的DSP数据仓库优化的研究与实现[D];吉林大学;2017年
2 黄芝准;组学大数据环境下的基因信息并行处理与分析方法研究[D];中国科学技术大学;2017年
3 韩学士;基于多维时间序列的甲亢疾病数据分析[D];东华大学;2016年
【二级参考文献】
中国期刊全文数据库 前10条
1 卢小宾;王涛;;Google三大云计算技术对海量数据分析流程的技术改进优化研究[J];图书情报工作;2015年03期
2 杨烨;刘娟;;第二代测序序列比对方法综述[J];武汉大学学报(理学版);2012年05期
3 权威;王亚东;;基于新一代测序数据的比对算法的研究[J];智能计算机与应用;2012年05期
4 高洪;董振江;;云计算分布式缓存技术及其在物联网中的应用[J];中兴通讯技术;2011年04期
5 张兴旺;李晨晖;秦晓珠;;云计算环境下大规模数据处理的研究与初步实现[J];现代图书情报技术;2011年04期
6 吴佳妍;肖景发;张若思;于军;;DNA测序技术引领中国基因组科学走向未来[J];中国科学:生命科学;2010年12期
7 杨晓玲;施苏华;唐恬;;新一代测序技术的发展及应用前景[J];生物技术通报;2010年10期
8 逯雯雯;卢志远;王亚旭;孙啸;;面向新一代基因组测序技术的序列拼接算法[J];生物信息学;2010年03期
9 解增言;林俊华;谭军;舒坤贤;;DNA测序技术的发展历史与最新进展[J];生物技术通报;2010年08期
10 王曦;汪小我;王立坤;冯智星;张学工;;新一代高通量RNA测序数据的处理与分析[J];生物化学与生物物理进展;2010年08期
中国硕士学位论文全文数据库 前10条
1 周梦雪;云计算环境下的多数据集连接优化[D];郑州大学;2013年
2 李雅琼;基于weka的web文本挖掘的研究和实现[D];郑州大学;2013年
3 刘晓慧;基于可视化检索的广告信息增强系统的设计与实现[D];中山大学;2013年
4 向辉;一种Hadoop集群仿真系统的设计[D];电子科技大学;2013年
5 张欣;云计算框架中通信机制的应用实践[D];浙江大学;2013年
6 武桂云;基于hadoop平台的分布式数据挖掘系统研究与设计[D];天津大学;2012年
7 李志闯;基于Hadoop的并行谱聚类算法实现[D];华南理工大学;2012年
8 高仲峰;基于Hadoop平台的桥梁结构健康监测系统的应用[D];西安科技大学;2012年
9 王谦;HADOOP作业启动性能优化实践[D];北京交通大学;2012年
10 程瑶;电子政务云系统的应用研究[D];兰州大学;2012年
【相似文献】
中国期刊全文数据库 前10条
1 刘小凤;罗勇;傅俊英;;DNA测序技术的专利计量研究[J];现代生物医学进展;2010年06期
2 于聘飞;王英;葛芹玉;;高通量DNA测序技术及其应用进展[J];南京晓庄学院学报;2010年03期
3 解增言;林俊华;谭军;舒坤贤;;DNA测序技术的发展历史与最新进展[J];生物技术通报;2010年08期
4 傅俊英;赵蕴华;;DNA测序技术领域的相关政府投入分析[J];现代生物医学进展;2012年05期
5 刘振波;;DNA测序技术比较[J];生物学通报;2012年07期
6 刘朋虎;林冬梅;林占熺;李晶;;DNA测序技术及其应用研究进展[J];福建农业学报;2012年10期
7 任鲁风;于军;;解读生命密码的基本手段——DNA测序技术的前世今生[J];生命科学;2012年12期
8 曹婷;张立岭;侯冠彧;周汉林;施力光;荀文娟;;高通量测序技术的发展及其在畜禽上的应用[J];家畜生态学报;2013年01期
9 孟广震;;DNA测序技术又一个新突破[J];生物工程学报;1987年01期
10 张晓丹;武海萍;周国华;;焦测序技术及其在遗传分析中的应用[J];分析化学;2006年04期
中国重要会议论文全文数据库 前10条
1 何彪;涂长春;;下一代测序技术的应用及展望[A];中国畜牧兽医学会家畜传染病学分会第八届全国会员代表大会暨第十五次学术研讨会论文集[C];2013年
2 李晓峰;刘公社;;利用454测序技术大规模挖掘羊草抗逆转录因子的研究[A];中国草学会牧草育种委员会第七届代表大会论文集[C];2009年
3 张卉;秦利涛;吴东;王红丹;廖世秀;;新一代测序技术在产前诊断中的应用[A];第九届全国遗传病诊断与产前诊断学术交流会暨产前诊断和医学遗传学新技术研讨会论文集[C];2014年
4 倪培相;;新一代高通量测序技术在微生物基因组学研究中的应用[A];2010年中国科学院微生物研究所博士后学术年会暨第二届博谊论坛论文摘要集[C];2011年
5 王楷宬;陈贵钱;蒋文明;刘硕;侯广宇;于建敏;李金平;庄青叶;陈继明;;新一代高通量测序在禽病毒检测中的应用[A];中国畜牧兽医学会家禽学分会第九次代表会议暨第十六次全国家禽学术讨论会论文集[C];2013年
6 卢大儒;;NGS的科学问题与行政管理[A];第九届全国遗传病诊断与产前诊断学术交流会暨产前诊断和医学遗传学新技术研讨会论文集[C];2014年
7 王艳;梁静;吴虹林;刘欣;封志纯;;应用第二代测序技术诊断一例新生儿营养不良型大疱表皮松解症及其家系分析[A];第九届全国遗传病诊断与产前诊断学术交流会暨产前诊断和医学遗传学新技术研讨会论文集[C];2014年
8 董艳玲;易玉婷;王延洲;胡华梅;胡华;章容;易鑫;姚宏;;利用新一代测序技术明确诊断1例综合征型性发育异常[A];第九届全国遗传病诊断与产前诊断学术交流会暨产前诊断和医学遗传学新技术研讨会论文集[C];2014年
9 魏晓明;;高通量捕获测序技术的临床应用进展临床遗传学[A];第十二次全国医学遗传学学术会议论文汇编[C];2014年
10 李彤彤;李爱华;;应用高通量测序技术比较三种不同鱼肠道微生物的群落结构[A];2013年湖北省暨武汉微生物学会会员代表大会暨学术年会论文摘要集[C];2013年
中国重要报纸全文数据库 前10条
1 王继荣 罗国金;新一代测序技术获突破性进展[N];解放军报;2014年
2 本报记者 许琦敏;个性化医疗离我们有多远[N];文汇报;2009年
3 记者 刘传书;华大科技推出微量转录组测序技术服务[N];科技日报;2012年
4 记者 刘传书;我科学家以单细胞测序技术突破癌症研究[N];科技日报;2012年
5 记者 贾少强 通讯员 王静思;新一代测序技术 揭示小脑致病基因[N];深圳商报;2010年
6 刘海英;外显子测序同样可以准确找出致病基因[N];科技日报;2009年
7 记者 刘传书;我国基因测序技术设备实现“零”突破[N];科技日报;2008年
8 张思;基因研究,飞入寻常百姓家?[N];中国医药报;2008年
9 深圳特区报记者 谭大跃 实习生 李中迪 记录整理;大熊猫被选为测序对象[N];深圳特区报;2010年
10 记者 贾少强 通讯员 张钫 刘佳;华大科技率先推出TruSeq微量转录组[N];深圳商报;2012年
中国博士学位论文全文数据库 前10条
1 张钊;植物miRNA及其靶标发掘相关的生物信息学工具开发[D];浙江大学;2014年
2 阴常欣;高通量测序技术在急性髓系白血病临床检测中的方法学建立及其初步应用[D];南方医科大学;2015年
3 浦丹;两核苷酸实时合成测序技术及其应用研究[D];东南大学;2015年
4 吴志斌;利用混池测序检测不同鸡种的全基因组结构变异[D];中国农业大学;2016年
5 李定辰;基于高通量测序平台的未知病原微生物检测系统[D];中国人民解放军军事医学科学院;2016年
6 范航;新发病毒性传染病病原体高通量测序数据分析[D];中国人民解放军军事医学科学院;2016年
7 刘东;16S rDNA PCR-DGGE结合测序技术在新生儿肠道微生态及败血症病原检测中的应用[D];重庆医科大学;2014年
8 王琛;一穴肛畸形腹腔镜治疗疗效评价及全外显子测序筛选一穴肛畸形致病基因研究[D];北京协和医学院;2016年
9 石晓丹;LUMINEX-MPMA和NGS技术在中枢神经系统感染性疾病诊断中的应用研究[D];第四军医大学;2016年
10 邱源;两种RNA测序文库制备方法的构建及其应用[D];甘肃农业大学;2017年
中国硕士学位论文全文数据库 前10条
1 张烨华;杂交盘羊尾部抑制性消减文库的构建与转录组初步分析[D];石河子大学;2015年
2 宾浪漫;转录组测序深度对表达基因检测影响的初步研究[D];湘潭大学;2015年
3 林晶晶;基于Hadoop的人类全基因组重测序数据处理技术的研究及实现[D];东北石油大学;2015年
4 林楚瑜;实用的细菌基因组组装策略:混合组装[D];华南理工大学;2015年
5 毛成光;两核苷酸实时合成测序信息分析[D];东南大学;2015年
6 王玮;PSP相关基因鉴别诊断策略的研究[D];南京大学;2015年
7 裴星朝;番鸭繁殖相关性状的转录组分析[D];福建农林大学;2014年
8 林泽忠;利用高通量测序技术探索毛竹冬笋成笋机制[D];福建农林大学;2016年
9 刘丰;几种临床常见致病菌的全基因组序列测定及分析[D];北京协和医学院;2016年
10 张翠媛;高通量测序技术应用于野生动物粪便中病毒的发现与分析[D];湖南师范大学;2016年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026