收藏本站
《武汉理工大学》 2016年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop的基因大数据序列比对算法研究与实现

刘中华  
【摘要】:基因是承载着生命体特定遗传信息的核苷酸序列,当其产生突变或变异后就会导致各种癌症或遗传病的发生,因此治疗各种遗传病和癌症的实质就是破解基因的秘密。基因研究中最基础也是最重要的一步是将测定的DNA序列比对到参考基因组上,只有获得了测定序列在参考基因组上的真实位置,才能研究其变异所带来的遗传性状的改变,进而对该变异所带来的不利影响进行有针对性的治疗。但是,随着各种高通量测序技术的不断涌现,与日俱增的海量数据对当前主流比对算法无论是硬件上都是软件上都提出了极大的挑战。因此,研究并实现处理速度更快、准确率更高的基因序列比对算法显得尤为重要。本文首先研究了两种基于BWT索引的序列比对算法原理及实现,并分析了其各自的优劣势,然后研究并实现了一种新的基于Hash索引的Subread算法。本文的创新主要有两点:其一是针对Subread算法在重复序列情况下返回比对位置不完整的问题做了进一步改进及实现,提高了比对准确率;其二是利用并行化框架Hadoop实现了改进型Subread算法的并行化处理,有效提高了比对速度。本文的研究工作和主要内容如下:(1)研究并实现了参考基因组二进制压缩方案,成功将参考基因组的占用空间降低为原来的四分之一大小,而且压缩后的参考基因组保留了原参考基因组的全部信息,能够进行无损还原。(2)研究了目前两种基于BWT索引的序列比对算法原理,并分别对其进行了实现,最后从灵敏度、准确性、内存占用和时间消耗四个方面对两种算法的性能进行了测试,并分析了其各自的优劣势。(3)重点研究并实现了基于种子投票策略的Subread序列比对算法,并将其与两种基于BWT索引的序列比对算法进行了性能测试及对比分析;最后针对Subread算法在重复序列情况下返回比对位置不完整的问题做了进一步的改进及实现,并对改进前与改进后的Subread算法进行了性能测试及对比分析,重点分析了改进前与改进后算法的准确性。(4)研究了改进型Subread序列比对算法的集群并行化方案,并在Hadoop平台下对其进行了实现,最后对并行前和并行后的改进型Subread算法进行了性能测试及分析,重点分析了并行化前与并行化后的时间消耗等。
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;Q811.4

【参考文献】
中国期刊全文数据库 前10条
1 高静;焦雅;张文广;;高通量测序序列比对研究综述[J];生命科学研究;2014年05期
2 崔振;;云计算在高通量测序数据分析中的应用[J];基因组学与应用生物学;2014年02期
3 郑晓薇;项明;张大为;刘青昆;;基于节点能力的Hadoop集群任务自适应调度方法[J];计算机研究与发展;2014年03期
4 柯何杨;杨群;王立松;段汐;;同构Hadoop集群环境下改进的延迟调度算法[J];计算机应用研究;2013年05期
5 丁茂华;徐永安;邵明;李谦;;启发式序列比对算法种子长度及其灵敏度研究[J];计算机技术与发展;2013年02期
6 张骏;殷陶;陈玲慧;;NRDPT:下一代测序数据的处理方法[J];计算机工程;2012年24期
7 杨烨;刘娟;;第二代测序序列比对方法综述[J];武汉大学学报(理学版);2012年05期
8 安娟;刘晓晴;;循环肿瘤细胞检测分子标志物的研究现状及进展[J];医学研究杂志;2012年09期
9 岳桂东;高强;罗龙海;王军一;许姣卉;尹烨;;高通量测序技术在动植物研究领域中的应用[J];中国科学:生命科学;2012年02期
10 周晓光;任鲁风;李运涛;张猛;俞育德;于军;;下一代测序技术:技术回顾与展望[J];中国科学:生命科学;2010年01期
【共引文献】
中国期刊全文数据库 前10条
1 屠卫;;基于Google的云计算技术[J];成组技术与生产现代化;2015年04期
2 田李;张颖;赵云峰;;新一代测序技术的发展和应用[J];生物技术通报;2015年11期
3 马昭;唐承晨;张纯;胡之璧;王莉莉;黎万奎;;内生菌与宿主植物关系对中药材道地性研究的启示[J];上海中医药大学学报;2015年06期
4 赵建国;崔佳雯;金飚;;树木幼年向成年转变的发育调控机制研究进展[J];植物生理学报;2015年11期
5 刘恋;张绍武;孟佳;陈润生;;高通量RNA甲基化测序数据处理与分析研究进展[J];生物化学与生物物理进展;2015年10期
6 易立;仝明薇;程悦宁;程世鹏;;貉外周血单核细胞转录组RNA-Seq数据的de novo拼接和信息比对研究[J];中国预防兽医学报;2015年10期
7 王洪程;梅楚刚;昝林森;成功;李安宁;王洪宝;;牛全基因组测序研究进展[J];西北农林科技大学学报(自然科学版);2015年11期
8 侯佳林;王佳君;聂洪玉;;基于异常检测模型的异构环境下MapReduce性能优化[J];计算机应用;2015年09期
9 李振;刘杨;李东锋;韦伟;陈杰;张立凡;;猪品种资源遗传基础挖掘的技术策略及其应用[J];畜牧与兽医;2015年09期
10 郝大程;肖培根;刘立伟;彭勇;何春年;;药用亲缘学论纲——知识谱系,认识论和范式转换[J];中国中药杂志;2015年17期
【二级参考文献】
中国期刊全文数据库 前10条
1 杨烨;刘娟;;第二代测序序列比对方法综述[J];武汉大学学报(理学版);2012年05期
2 权威;王亚东;;基于新一代测序数据的比对算法的研究[J];智能计算机与应用;2012年05期
3 王凯;侯紫峰;;自适应调整虚拟机权重参数的调度方法[J];计算机研究与发展;2011年11期
4 金海;邓莉;吴松;石宣化;周理科;;一种能耗感知的虚拟集群CPU资源自动再配置方法[J];计算机研究与发展;2011年07期
5 李乔;郑啸;;云计算研究现状综述[J];计算机科学;2011年04期
6 魏大木;陶宏才;;序列比对算法简单研究[J];微计算机信息;2011年04期
7 逯雯雯;卢志远;王亚旭;孙啸;;面向新一代基因组测序技术的序列拼接算法[J];生物信息学;2010年03期
8 张建勋;古志民;郑超;;云计算研究进展综述[J];计算机应用研究;2010年02期
9 牛北方;张西广;刘涛;郎显宇;陆忠华;迟学斌;;基于新测序技术的比对与组装算法[J];计算机工程;2009年20期
10 吴德敏;陈俊;;双序列比对的算法研究[J];计算机工程与应用;2008年36期
【相似文献】
中国期刊全文数据库 前10条
1 王进科;冯萍;康继昌;陈亚东;;基于布尔逻辑的双序列比对协处理器的设计与实现[J];西北工业大学学报;2011年01期
2 张永;王瑞;;生物信息学中的序列比对算法[J];电脑知识与技术;2008年01期
3 张涛涛;郭茂祖;邹权;;参数序列比对算法研究(英文)[J];生物信息学;2008年02期
4 唐玉荣;生物信息学中一个优化的全局双序列比对算法[J];计算机应用;2004年S1期
5 张敏;生物序列比对算法研究现状与展望[J];大连大学学报;2004年04期
6 单路超;王建章;许德森;李东垣;赵鹏;王国相;褚腾飞;;基于局部序列比对的漏洞挖掘技术研究[J];微型机与应用;2017年03期
7 杨洁;刘海;;生物序列比对算法的研究现状[J];中国科技信息;2011年09期
8 叶笑春;林伟;范东睿;张浩;;蛋白质序列比对算法在众核结构上的并行优化[J];软件学报;2010年12期
9 骆嘉伟;陈斐;彭东海;;基于混合行为的蚁群双序列比对方法[J];计算机工程与应用;2009年11期
10 吴德敏;陈俊;;双序列比对的算法研究[J];计算机工程与应用;2008年36期
中国重要会议论文全文数据库 前8条
1 王盛;吴长刚;孙慰迟;;带约束星形序列比对复杂性的研究[A];2006年全国理论计算机科学学术年会论文集[C];2006年
2 方慧生;陈凯先;;一个有效解决远距离同源蛋白质结构预测及序列比对的有效方法[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
3 许龙飞;段敏;陈孝卫;冉丽;朱婵;;生物DNA序列比对算法研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 陈婷婷;郭婷婷;李林;安冬;;基于生物信息学的功能蛋白基因序列分类研究[A];2011年全国通信安全学术会议论文集[C];2011年
5 颜朗;曹庆华;张义正;王海燕;;基于转录组的甘薯转座元件搜寻及转座酶基因表达分析[A];中国遗传学会第九次全国会员代表大会暨学术研讨会论文摘要汇编(2009-2013)[C];2013年
6 尹荣岭;陈巨莲;刘勇;程登发;孙京瑞;Claude Bragard;Frederic FRANCIS;;CMV蚜传相关蛋白CP基因的克隆与变异分析[A];植保科技创新与病虫防控专业化——中国植物保护学会2011年学术年会论文集[C];2011年
7 叶瑀;张静淑;李岭;;脊椎动物脑容量相关基因的进化分析[A];中国的遗传学研究——遗传学进步推动中国西部经济与社会发展——2011年中国遗传学会大会论文摘要汇编[C];2011年
8 赵培宝;任爱芝;李多川;;轮枝镰孢两蛋白激酶基因的克隆及功能研究[A];中国植物病理学会2009年学术年会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 朱香元;大规模生物序列比对算法及其并行化研究[D];湖南大学;2014年
2 唐玉荣;生物信息学中的序列比对算法研究[D];中国农业大学;2004年
3 李玉岗;生物大分子序列比对和蛋白质结构分类算法[D];中国科学院研究生院(计算技术研究所);2004年
4 陈科;最优化方法在生物序列比对中的应用与研究[D];电子科技大学;2010年
5 向旭宇;基因序列与结构的信息分析及应用算法研究[D];湖南大学;2010年
6 马爽;多功能雷达电子情报信号处理关键技术研究[D];国防科学技术大学;2013年
7 刘广臣;若干统计计算模型研究及其在生物医学信息处理中的应用[D];山东大学;2016年
8 李想;多重序列比对上的RNA相互作用问题[D];南开大学;2013年
9 曹永忠;新城疫病毒生物信息分析系统的构建及其全基因组的比较研究[D];扬州大学;2009年
10 Sagheer Atta;[D];西南大学;2011年
中国硕士学位论文全文数据库 前10条
1 陈良;基于Spaced Burrows-Wheeler变换的基因序列比对算法研究[D];东南大学;2018年
2 刘中华;基于Hadoop的基因大数据序列比对算法研究与实现[D];武汉理工大学;2016年
3 张彩华;模糊隐马氏模型及其在生物序列比对中的应用[D];山东大学;2018年
4 黄丹青;基于混合化学反应优化算法的序列比对研究[D];湖南大学;2014年
5 张吉凯;基于英特尔多核及众核平台的全局序列比对算法研究[D];山东大学;2018年
6 郭睿东;基于变长种子的找全测序序列比对算法研究及优化[D];中国科学技术大学;2018年
7 宁维迪;基于正余弦策略的粒子群算法的研究及应用[D];湖南大学;2018年
8 司雨佳;一个基于GPU的快速序列比对软件的设计与实现[D];华中科技大学;2017年
9 姜鲜桃;双序列比对Needleman-Wunsch算法研究[D];内蒙古农业大学;2017年
10 何万双;双序列比对算法研究[D];国防科学技术大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026