收藏本站
收藏 | 论文排版

RNA-Seq Reads mapping中基于Spark的并行FM-Index算法研究

刘芳  
【摘要】:随着现阶段二代高通量测序技术的不断发展,RNA-Seq测序技术所产生的数据量不断增大,庞大的数据量虽然蕴含了大量生物学信息,但是为研究人员带来了生物信息学分析的难题。快速、高效分析这些海量生物数据,挖掘数据信息,是现今生物信息学急需解决的重要问题。对于海量生物信息学数据的存储和处理,利用数千台计算机来工作显然不太现实,因此把云计算技术应用到组学大数据中对庞大的数据集进行存储、处理和分析是最佳解决方案。在RNA-Seq数据分析流程中,Reads mapping序列比对过程是将RNA-Seq测序得到的reads片段通过Reads mapping算法,查找在参考基因组中的坐标信息(染色体号和在该染色体中的位置)。Reads mapping分析过程是RNA-Seq数据分析流程中的第一步,也是重要的一步,数据分析结果的质量、软件程序运行时间等会对之后的数据分析产生影响。随着高通量测序技术的发展,RNA-Seq所产生的数据量有着高通量、低成本、信息量巨大等特点,传统的序列比对工具在时间消耗和对计算机内存需求方面为生物信息学分析带来巨大难题,因此需要选择合适的Reads mapping算法,进行reads序列的比对有着很重要的作用。Reads mapping序列比对过程可以抽象成计算机算法中字符串搜索问题,即在一个长字符串中搜索子字符串,确定子字符串的位置。常用的Reads mapping算法包括Hash Table算法、Suffer Array算法、Kart算法和FM-Index算法,本文对常用四种基本算法进行简单分析比对,通过模拟reads序列数据集将四种算法在内存需求、运行时间和序列比对正确率三方面进行比对,选择综合比较相对较好的FM-Index算法,进行之后的算法并行化。在基于Spark进行FM-Index算法并行化过程中,主要在Reads mapping过程中参考基因组索引建立和reads序列比对两个部分进行并行化,将参考基因组索引建立通过Spark分布式计算框架进行并行化,参考基因组索引建立过程分为三个步骤,分别为参考基因组序列的切割、键值对的洗牌与排序、RDD索引的持久化。将大的参考基因组切分成小的reads序列分给不同的RDD缓存到内存中,然后通过键值对的洗牌与排序进行索引的建立;之后在reads序列比对过程中,将输入的大量reads序列分到不同的RDD中,与参考基因组进行序列比对,确定reads在参考基因组中的坐标信息,进而实现算法的并行化,优化串行算法,达到减少Reads mapping过程的时间消耗和内存需求的目的。在组学大数据时代,海量的生物信息学数据,使传统的序列比对工具很难高效的完成Reads mapping序列比对,因此将传统的mapping算法与云计算技术结合,开发出适应于生物大数据的Reads mapping序列分析过程,成为解决RNA-Seq数据分析难题的一个有效方法。大数据与云计算技术的快速发展,对于解决生物学这一难题有着很大的帮助。在序列比对过程中,通过构建云计算环境,优化短reads序列的mapping问题,进一步推进RNA-Seq数据分析的发展,对生物信息学有着重大意义。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;首个家山羊的高质量参考基因组[J];吉林畜牧兽医;2013年01期
2 ;我国成功获得高质量橡胶树参考基因组[J];生物学教学;2016年11期
3 田洋;曾严;张静;杨承光;严亮;王宣军;史崇颖;谢静;戴天浥;彭磊;曾寰宇;徐安妮;黄业伟;张佳进;马啸;董扬;郝淑美;盛军;;辣木(Moringa oleifera Lam.)的高质量参考基因组[J];中国科学:生命科学;2015年05期
4 黄学辉;;中国科学家绘制籼稻高质量参考基因组序列图谱[J];植物学报;2017年01期
5 武思文;;基于参考基因的转录本组装与评价[J];中国高新区;2017年22期
6 ;前沿科技[J];新疆农垦科技;2016年06期
7 英泰;;世界健康科技新亮点[J];决策与信息;2007年03期
8 ;我国天然橡胶理论研究取得重大突破[J];特种橡胶制品;2016年04期
9 莫俊銮;梁雄顺;周继昌;张丽君;龚春梅;朱玉梅;杨慧;;硒干预和DNCB致敏实验小鼠的基因表达分析参考基因的筛选[J];中国热带医学;2016年09期
10 ;信息动态[J];生物医学工程与临床;2008年01期
11 田仕林;唐茜子;李学伟;李明洲;;利用de novo组装策略解析猪的基因组变异[J];遗传;2016年11期
12 ;研发动态[J];中国生物工程杂志;2014年07期
13 ;美用新测序法发现数万基因变异[J];生物学教学;2015年04期
14 葛淑娟;孙爱清;刘鹏;张杰道;董树亭;;玉米响应渗透胁迫的数字基因表达谱分析[J];作物学报;2014年07期
15 杨官品;郭栗;;基因组的测序技术及其发展趋势[J];中国海洋大学学报(自然科学版);2017年S1期
16 陈建;刘宝;崔建华;张龙;徐刚;梁颜;梁羽;汪健;高钰琪;;RNA-Seq技术揭示人体急进高原早期转录特征[J];中国病理生理杂志;2015年10期
17 陈海霞;贾俊楠;李卫民;高基民;;结核分枝杆菌单核苷酸多态性特征的分析[J];疾病监测;2017年04期
18 王生富;景志忠;陈国华;房永祥;莫斯科;段凤云;何延华;;猪CD8β基因的克隆、表达及其结构与功能分析[J];中国预防兽医学报;2008年09期
19 郑伟峰;蒋琳;雷清;;实时定量PCR发展概述[J];微生物学免疫学进展;2018年02期
20 朱静;;基因组学研究揭示家鸽的地理起源[J];中国家禽;2013年13期
中国重要会议论文全文数据库 前5条
1 刘宏高;胡继红;潘磊;黄兴国;余金洪;丁毅;;一种鲁棒有序的mRNA差异显示方法[A];基因开启未来:新时代的遗传学与科技进步——湖北省遗传学会第八次代表大会暨学术讨论会论文摘要汇编[C];2009年
2 武方琨;魏育明;刘亚西;郑有良;;缺磷条件下人工合成六倍体小麦根系直径的基因定位及分析[A];第八届全国小麦基因组学及分子育种大会摘要集[C];2017年
3 王冬至;余慷;孙林鹤;武文瑛;申莉莎;金迪;王焕雪;阳文龙;孙家柱;张爱民;刘冬成;;小麦芒长抑制基因B1的精细定位[A];2017年中国作物学会学术年会摘要集[C];2017年
4 王冬至;余慷;孙林鹤;武文瑛;申莉莎;金迪;王焕雪;阳文龙;孙家柱;张爱民;刘冬成;;小麦芒长抑制基因B1的精细定位[A];第八届全国小麦基因组学及分子育种大会摘要集[C];2017年
5 姜莺颖;董亚萍;杨宗英;吕新美;杨先乐;胡鲲;;连翘处理对嗜水气单胞菌耐恩诺沙星菌株的转录组影响分析[A];2017年中国水产学会学术年会论文摘要集[C];2017年
中国博士学位论文全文数据库 前10条
1 易会广;无参考基因组的比较基因组学研究[D];复旦大学;2013年
2 王丛茂;高通量基因组数据的处理、分析与建模[D];上海交通大学;2012年
3 陈庚;整合多层次数据多方位解析和注释人类转录组[D];华东师范大学;2014年
4 SAMMINA MAHMOOD;[D];华中农业大学;2016年
5 李怀珠;小麦籽粒发育形态建成时期转录组学研究[D];西北农林科技大学;2014年
6 Daoura Gaoh Goudia Bachir;普通小麦(Triticum aestivum L.)及谷子(Setaria italica L.)C_4光合途径关键酶基因的表达模式分析[D];西北农林科技大学;2017年
7 林燕;大白菜小孢子早期胚胎发生相关基因的表达分析[D];中国农业大学;2014年
8 陈鑫;转录组数据的共表达分析和扩展应用[D];吉林大学;2016年
9 吴添文;五指山近交系小型猪骨髓和脐带间充质干细胞的全基因组甲基化和转录组联合分析[D];中国农业科学院;2014年
10 杨竞;疾病间相关关系的研究及其研究方法的开发[D];华东理工大学;2015年
中国硕士学位论文全文数据库 前10条
1 刘芳;RNA-Seq Reads mapping中基于Spark的并行FM-Index算法研究[D];内蒙古师范大学;2018年
2 鲁娜;嵌合体序列识别与热点选择偏好研究及其在单倍型分析中的应用探究[D];东南大学;2017年
3 张义军;参考基因压缩库间快速迁移算法研究[D];深圳大学;2017年
4 张永朋;高通量DNA测序数据无损压缩研究[D];深圳大学;2015年
5 张雪莹;小麦近等基因系白粉病抗性反应的转录组分析[D];山东农业大学;2015年
6 谭云涛;运用RAD(Restriction Site Associated DNA)技术构建烟草高密度连锁图谱[D];昆明理工大学;2016年
7 卢山;高通量转录组测序片段快速比对算法研究[D];哈尔滨工业大学;2015年
8 陈超;基于RNA-Seq技术的人转录组分析研究[D];中南大学;2011年
9 高亚男;小麦芒长近等基因系的遗传分析与转录组研究[D];山东农业大学;2015年
10 蔡成成;白菜参考基因组组装升级和进化分析[D];中国农业科学院;2017年
中国重要报纸全文数据库 前8条
1 记者 江东洲;高质量橡胶树参考基因组成功获得[N];科技日报;2016年
2 记者 路平;可为疾病研究提供精准参考基因组[N];广东科技报;2016年
3 记者 马芳;人类首获自身参考基因组数据集合[N];南方日报;2010年
4 记者 白毅;人类肠道微生物最高质量参考基因集数据库问世[N];中国医药报;2014年
5 记者 赖红英 刘慧婵 通讯员 卢庆雷;华南理工为尖子生量身定制培养方案[N];中国教育报;2010年
6 记者 谭大跃 第五燕燕;《自然》封面解析“人体肠道菌群元基因组研究”[N];深圳特区报;2010年
7 言实;誓为人先日本抢研基因药[N];医药经济报;2000年
8 张田勘;“中国基因歧视第一案”提出的严峻挑战[N];健康报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978