收藏本站
《内蒙古农业大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Spark的DNA序列拼接算法研究

潘旭  
【摘要】:生物信息学是对生物信息进行处理的交叉学科,DNA序列拼接问题是其研究的主要内容之一。DNA序列长度少则几千,多则数十亿,但目前测序仪的平均读长仅在500bp左右,无法直接测得生物体的基因组。所以,DNA序列拼接算法应运而生。该算法首先将目标序列打断成小片段,然后对这些小片段进行分别测序,最后利用计算机技术根据片段间的重叠关系进行拼接。目前,序列拼接算法主要分为Overlap-Layout-Consensus拼接算法和de-Bruijin graph 拼接算法。Overlap-Layout-Consensus 拼接算法运用 "overlap-layout-consensus"方法基于read片段进行拼接处理,虽能保留片段的完整信息,但却不能有效克服重复序列的问题。de-Bruijin graph拼接算法将read片段进行进一步拆分,然后基于更小的片段单元进行拼接处理,一定程度上克服了重复序列问题,但同时产生大量的k-mer片段,并且需要生成deBruijin图,所以,这类算法存在着很大的存储和时间上的开销。另外,对于实现平台而言,大多数研究在于单机环境下实现的串行算法,这种算法的瓶颈是空间和时间的消耗。还有人在MapReduce并行环境下进行研究。但是,基于MapReduce的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错,有着费时的读写硬盘操作。效率上虽然有明显提高,但依然存在一定的时间开销。针对以上问题,本文在de-Bruijin graph拼接算法研究的基础上,提出了拆分read片段时依次右移两位碱基的策略,将改变k-mer获取方法的思想融入拼接算法中,降低了 deBruijin图的复杂度。同时,将该算法在Spark并行环境下进行了实现。仿真实验数据表明,论文所提出的基于Spark并行环境下的拼接算法在时间效率上比单机串行以及基于MapReduce环境下的并行算法得到了提高。
【学位授予单位】:内蒙古农业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:Q811.4;TP301.6

【参考文献】
中国期刊全文数据库 前10条
1 付丽丽;姜彬慧;胡筱敏;;Paenibacillus Shenyangensis的DNA序列拼接与组装[J];东北大学学报(自然科学版);2016年10期
2 李宏博;梁艳春;李占山;;概率最大受限路径相容算法[J];软件学报;2015年12期
3 徐晓蒙;康怀兴;张志毅;童贻刚;;用实时定量PCR解决基因组序列组装中的重复序列问题[J];生物技术通讯;2015年03期
4 林勇;;面向下一代测序技术的de novo序列拼接工具综述[J];小型微型计算机系统;2013年03期
5 蔡葵;杨进才;;基于变长子串的DNA重复序列预归并屏蔽方法[J];武汉理工大学学报(信息与管理工程版);2012年01期
6 蔡葵;杨进才;;DNA片段拼接中的预归并重复序列屏蔽方法[J];计算机工程;2009年04期
7 胡皝;萧浪涛;;生物信息学在新基因全长cDNA电子克隆中的应用[J];生物技术通报;2007年04期
8 骆志刚;方小永;丁凡;;DNA序列拼接的研究进展及挑战[J];计算机工程与科学;2007年08期
9 李小妹;王能超;;序列拼接中重复子串屏蔽的KMP算法[J];小型微型计算机系统;2006年02期
10 郑纬民;林皎;罗水华;;DNA序列拼接中欧拉超路算法的新并行策略[J];计算机学报;2006年01期
中国博士学位论文全文数据库 前1条
1 王春宇;生物高通量测序片段拼接与分子标记识别算法研究[D];哈尔滨工业大学;2015年
中国硕士学位论文全文数据库 前6条
1 高进;基于MapReduce的DNA序列拼接算法研究[D];北京交通大学;2012年
2 李方洁;基于智能算法的DNA序列比对研究[D];山东师范大学;2011年
3 徐海龙;嵌入式生物信息采集系统的研究[D];山东科技大学;2008年
4 方小永;DNA序列拼接的分布式并行处理[D];国防科学技术大学;2003年
5 张博锋;全基因组DNA测序中的片段拼接方法及其并行处理[D];中国人民解放军国防科学技术大学;2002年
6 杨琪;生物信息学中序列拼接程序的并行化研究[D];中国科学院研究生院(计算技术研究所);2002年
【共引文献】
中国期刊全文数据库 前10条
1 马小娅;庞春英;梁莎莎;陆杏蓉;朱鹏;段安琴;梁贤威;邓廷贤;;水牛FADS2基因的电子克隆及序列分析[J];中国畜牧兽医;2017年10期
2 林懋怡;牛卉;刘晋杰;柳威;刘忠;;基于转录组分析华细辛甲基丁香酚生物合成途径的相关基因[J];中草药;2017年15期
3 闫嵩;任伟超;刘振鹏;张开雪;刘秀波;马伟;;百脉根细胞亲环素电子克隆和生物信息学分析[J];中草药;2016年19期
4 刘浩;朱维宁;张大鹏;张林生;;小麦脱水素基因WDHN1-2的克隆及其表达分析[J];麦类作物学报;2016年10期
5 买阿丽;杨雯雯;;关于基因重组中OLC算法的改进研究[J];郑州大学学报(理学版);2016年02期
6 颜珂;何威;徐勇;张健;;面向新一代基因测序数据的拼接算法综述[J];计算机应用研究;2016年09期
7 李飞菲;;基于de Bruijn图的序列拼接算法研究与实现[J];现代计算机(专业版);2016年02期
8 郭方舟;华阳;董修伟;蔡志丹;;基于Hash算法的DNA序列k-mer index问题的数学建模[J];长春理工大学学报(自然科学版);2015年05期
9 贾栋;赵龙龙;王森;付淑慧;郭艳琼;马瑞燕;;莲草直胸跳甲Hsp70蛋白的生物信息学分析[J];山西农业科学;2015年04期
10 李旭娟;刘洪博;林秀琴;吴转娣;徐超华;刘新龙;;甘蔗KNOX基因(Sckn1)的电子克隆及生物信息学分析[J];基因组学与应用生物学;2015年01期
中国硕士学位论文全文数据库 前10条
1 潘旭;基于Spark的DNA序列拼接算法研究[D];内蒙古农业大学;2017年
2 董科;数字展览馆终端测控系统的设计与实现[D];安徽大学;2016年
3 孟明;基于Hadcop的基因序列比对算法Blast的分布式并行化研究与实现[D];内蒙古农业大学;2015年
4 汪浩;基因序列比对算法的优化研究[D];中国农业科学院;2015年
5 李聪;基于OpenCL平台的DNA序列并行比对算法的研究[D];黑龙江大学;2015年
6 杜志泽;氧化铜纳米颗粒对SBR脱氮除磷及微生物群落的影响研究[D];北京化工大学;2014年
7 陈玉敏;DNA序列相似性比对算法研究[D];中南大学;2014年
8 丁茂华;生物序列数据库相似性搜索算法研究[D];扬州大学;2013年
9 苑建蕊;基于双向de Bruijn图的序列拼接并行化研究与实现[D];中南大学;2012年
10 江绍钏;高分子链穿孔行为的研究[D];浙江大学;2009年
【二级参考文献】
中国期刊全文数据库 前7条
1 GAO Jian;WANG JiaNan;YIN MingHao;;Experimental analyses on phase transitions in compiling satisfiability problems[J];Science China(Information Sciences);2015年03期
2 李宏博;李占山;王涛;;改进求解约束满足问题粗粒度弧相容算法[J];软件学报;2012年07期
3 蔡葵;杨进才;;DNA片段拼接中的预归并重复序列屏蔽方法[J];计算机工程;2009年04期
4 王磊;张祖平;陈建二;;DNA片段拼接中重复序列算法研究[J];计算机科学;2006年07期
5 方小永,骆志刚;DNA序列拼接的分布式并行处理[J];计算机工程与科学;2005年02期
6 涂俐兰,王能超;DNA序列拼接中重复序列屏蔽的一种新方法[J];华中科技大学学报(自然科学版);2004年08期
7 张博锋,王正华;DNA片段拼接中基于定长特征子串的重复序列信息屏蔽方法[J];国防科技大学学报;2002年06期
中国硕士学位论文全文数据库 前3条
1 王宗利;基于AFSA的聚类算法研究及应用[D];山东师范大学;2010年
2 雷娟;人工鱼群算法在组合优化问题上的应用研究[D];西安理工大学;2010年
3 尹占芳;基于CDMA的远程移动医疗[D];山东科技大学;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026