收藏本站
收藏 | 论文排版

大规模基因序列压缩及其并行化算法研究

尧海昌  
【摘要】:基因数据因其重要的社会价值和科研价值受到国际社会的广泛重视。随着基因测序技术的不断进步,测序速度在不断提升而测序成本在不断下降,因此人类基因数据正以指数形式增长,而且未来增长速度会更快。基因数据的增长速度远远超过了存储容量和网络带宽的增长速度,给基因数据的存储、备份和传输等都带来了很大的挑战。基因压缩算法是缓解该挑战的重要手段。基因数据是生命的密码,记录着生物体的全部遗传信息,是每个国家特有的资源,其安全是国家安全的重要组成部分。因此,在提升基因数据存储效率的基础上同时保障基因数据的安全具有十分重要的意义。本文从安全高效存储大规模基因数据的需求出发,在对当前国内外已存在的基因压缩算法深入研究的基础上,分别从基因压缩核心算法,大规模基因序列批量压缩算法,基因压缩单机多线程并行算法,基因压缩分布式并行算法,基因流数据压缩算法依次递进逐步解决关键科学技术问题。具体来讲,本文的创新工作总结为如下三点:(1)针对基因压缩的核心算法,提出基于最大似然模型的基因序列匹配算法MLGM(Maximum Likelihood Genome Matching),提升当前基因匹配算法的效率。从基因序列的生物特征出发,研究基因序列间广泛存在的插入、删除和替换这三种变异的特征。匹配算法不以精确匹配长度为标准,而是匹配片段中允许碱基变异的,以匹配存储开销作为选择匹配片段标准。在搜索到精确匹配片段之后,以匹配片段为锚点,比对相邻匹配片段间的INDEL与碱基替换,对片段进行联合,并依此迭代,直至找到最优的最大似然匹配片段。与当前基因压缩算法采用的精确匹配算法相比,MLGM算法能够以更小的存储开销表示序列间的差异信息。实验结果表明,MLGM算法相对于当前最优秀的基因压缩算法mem RGC采用的匹配算法平均压缩率提升了16.64%。(2)在MLGM的基础上,提出基于二维哈希矩阵的大规模基因序列批量压缩算法HRCM(Hybrid Referential Compression Method for large collections of genomes),解决当前还没有高效的多序列无损压缩算法的问题。HRCM在首次压缩前,将序列文件辅助信息与基本碱基序列分别提取。只对基本碱基序列进行匹配,提升了匹配速度,降低了内存消耗。在首次压缩后,并不对压缩结果直接存储,而是选取部分序列的首次压缩结果构建二维哈希矩阵索引,所有待压缩序列的首次压缩结果基于二维哈希矩阵进行二次压缩。设计了首次压缩结果与二次压缩结果的高效表达方式,降低了压缩文件存储总开销。二次压缩机制还降低了参考序列选取对压缩结果的影响。而且,算法采用流水线压缩机制,内存峰值与待压缩序列数量无关,可以满足大规模的基因序列压缩。实验结果表明,在压缩1100个人类基因时,HRCM算法平均压缩率达到了2347:1,相比于当前最优秀的基因压缩算法mem RGC,压缩率提升了5.8倍。而且,因为批量压缩时只需要一次参考序列预处理及匹配索引构建即可以完成对所有序列的压缩,压缩速度相较于当前最快的压缩算法Hi RGC提升了46.4%;压缩算法的鲁棒性也在所有比较算法中表现最优;压缩算法的加密属性也保障了基因数据的安全。(3)针对大规模基因序列压缩时间长的问题,提出高效的大规模基因序列压缩并行化算法。通过研究大规模基因压缩算法中流程与数据的依赖部分与可并行化部分,将其与多种并行化技术融合,重新设计算法与数据流,分别提出面向单机环境多线程的,面向分布式存储环境基于Hadoop的和基于Spark的大规模基因序列压缩并行化算法Mt GC(Multi-thread Genome Compression),Hadoop GC(Hadoop based Genome Compression)和Spark GC(Spark based Genome Compression)。三种并行算法解决了不同的问题,相互补充,不可替代。Mt GC将非参考序列的其他序列压缩通过线程池技术实现并行化,解决了单机环境上的基因压缩速度问题。Hadoop GC解决了在当前应用最广的分布式计算系统Hadoop平台上的批量基因离线压缩问题,设计了分布式存储系统下基因数据输入与输出算法,分布式计算环境下的数据分配策略,内存管理算法和文件管理算法。在Map阶段完成待压缩序列首次压缩,在Reduce阶段完成待压缩序列的二次压缩,各阶段均利用多节点计算能力实现算法并行。Spark GC基于内存分布数据集技术与Spark Streaming流式数据处理技术,既支持大规模基因数据的批量压缩,也支持基因实时数据流的在线压缩。Spark GC将Spark算子与大规模基因序列压缩算法融合,通过RDD转化实现基因序列分布式并行压缩,进一步提升了压缩速度;设计RDD内存缓存方式和序列化机制,提升内存空间利用率。实验结果表明,Mt GC在线程池规模为4时,压缩1100个人类基因平均压缩速度是HRCM的2.8倍。Hadoop GC在四个计算节点时,压缩1100个人类基因平均压缩速度是HRCM的3.3倍。Spark GC在单个工作结点上压缩速度是HRCM的3.85倍;在工作节点数为4时,平均压缩速度是HRCM的10倍,将1100个人类基因的压缩由HRCM所需的60个小时缩短为仅需6个小时,扩展性能优秀。本文对三种并行策略的设计与理论分析,对其他基因处理并行化算法也具有指导作用。本文研究成果解决了大规模基因序列批量压缩问题,面向分布式文件系统的基因数据压缩问题和基因流数据的压缩问题,提升了大规模基因序列压缩率,压缩速度和适用性,算法鲁棒性好,扩展性能优秀,在一定程度上缓解了基因数据急剧增长所带来的挑战,解决了国产处理器大数据一体机的基因数据存储问题。同时国产处理器保障了存储设备的安全与自主可控,基于参考序列的基因数据压缩保障了基因数据存储安全。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 张燕;;智商的“密码”[J];37°女人;2017年01期
2 卢洪洲;汤一苇;;如何在GenBank中注册基因序列[J];微生物与感染;2009年03期
3 韩晓燕;牛建新;刘宏;樊新民;戴志新;;梨树苹果褪绿叶斑病毒在昆诺藜与梨树上的基因序列比较研究[J];石河子大学学报(自然科学版);2006年01期
4 ;基因序列(英文)[J];植物生理与分子生物学学报;2003年01期
5 ;基因序列(英文)[J];植物生理与分子生物学学报;2003年04期
6 ;基因序列(英文)[J];植物生理与分子生物学学报;2003年06期
7 陈新建,陈军营,吕德彬,陈占宽,梁静静;小麦高分子量麦谷蛋白亚基 5基因序列(英文)[J];植物生理与分子生物学学报;2002年05期
8 崔芳岩,孟和,陈学辉,潘玉春;鸡传染性支气管炎病毒澳大利亚T株部分基因序列的克隆与分析[J];上海交通大学学报(农业科学版);2005年03期
9 马宝山;朱义胜;陈玉珍;;用多种统计特征识别基因序列[J];计算机工程与应用;2009年29期
10 徐永安;沈玲玲;刘毓;陈熔;;基因序列Z曲线的生成和显示[J];计算机工程与应用;2009年02期
11 张炜达;姜彬;;基因序列专利保护——以实用性审查为视角[J];消费导刊;2009年03期
12 马扬;刘泽一;梁星星;程光权;阳方杰;成清;刘忠;;基于病毒传播网络的基因序列表示学习[J];计算机研究与发展;2021年08期
13 杨钰慧;谢佳燕;吴聪;;基于线粒体COI基因序列的武汉地区常见麦蚜蚜种鉴定[J];南方农业学报;2019年08期
14 李乃健;田纪宏;胥国伟;齐英杰;;操作系统中进程同步算法的仿真研究[J];现代计算机(专业版);2018年09期
15 田苗;左璐璐;张小玉;柏雪;江明锋;林亚秋;;牦牛KLF10基因克隆及组织表达分析[J];黑龙江畜牧兽医;2017年17期
16 龚雪晶;慈林林;姚康泽;;分裂合并算法的优化及并行化方案[J];北京理工大学学报;2007年09期
17 魏莉;史轶超;范晓博;崔英霞;黄宇烽;;泛素特异蛋白酶26基因序列改变与精子发生相关性的研究[J];医学研究生学报;2010年10期
18 郝鑫;汪朝晖;赵磊;林长星;成彬彬;邓贤进;;太赫兹通信中高速数字信号处理并行化算法[J];太赫兹科学与电子信息学报;2017年06期
19 熊克勇;;快速基因序列仪问世[J];生物科学信息;1991年04期
中国重要会议论文全文数据库 前20条
1 石文兵;许燕梅;俞志刚;;取代信号机制电流型传感器高灵敏检测大肠杆菌基因序列[A];中国化学会第十三届全国分析化学年会论文集(一)[C];2018年
2 马松成;毛华明;陈静;邓卫东;和天宝;;大额牛瘤胃细菌16S rRNA基因序列的分析[A];第四届中国畜牧科技论坛论文集[C];2009年
3 孙琰;;麒麟菜族海藻的五种基因序列特征[A];第二届全国藻类多样性和藻类分类学术研讨会论文摘要集[C];2010年
4 蔡欣;泽让东科;张海容;;牦牛MC4R基因序列的扩增与分析[A];中国动物遗传育种研究进展——第十五次全国动物遗传育种学术讨论会论文集[C];2009年
5 李昆鹏;朱化彬;郝海生;赵学明;杜卫华;秦彤;刘岩;张林波;王栋;;基于PCR方法的基因序列全长获取策略[A];中国畜牧兽医学会动物繁殖学分会第十六届学术研讨会论文集[C];2012年
6 范存群;林曼筠;赵现纲;谢利子;卫兰;国鹏;;风云卫星降水估计日收工产品算法并行化研究[A];第35届中国气象学会年会 S21 卫星气象与生态遥感[C];2018年
7 刘爱红;殷宏;关贵全;刘志杰;刘军龙;马米玲;党志胜;李有全;罗建勋;;牛的泰勒虫18S rRNA基因序列比较研究[A];中国畜牧兽医学会家畜寄生虫学分会第六次代表大会暨第十次学术研讨会论文集[C];2009年
8 彭林;张小强;刘德峰;谢伦国;田祖伟;;一种挖掘多核处理器存储级并行的算法[A];第15届全国信息存储技术学术会议论文集[C];2008年
9 程剑;胡宝庆;文春根;;利用线粒体COI基因序列探讨蚌螨的系统发育[A];第五届广东、湖南、江西、湖北四省动物学学术研讨会论文摘要汇编[C];2008年
10 徐一;杨静;任志刚;杨迅幸;;基于学习的烟花算法[A];2018中国自动化大会(CAC2018)论文集[C];2018年
11 姚雪;;基于算法多样化培养学生思维习惯和创新精神[A];2019年“区域优质教育资源的整合研究”研讨会论文集[C];2019年
12 熊薇薇;吴怀宇;;一种改进的角点检测算法[A];中国计量协会冶金分会2009年年会论文集[C];2009年
13 陶丽;张自力;丁晓明;;一种适用于动态重构的联盟形成算法[A];2008年计算机应用技术交流会论文集[C];2008年
14 李凤琴;俞志刚;;基于倒扭杂交模式传感器高灵敏电化学检测乙肝病毒特定基因序列[A];第十三届全国电分析化学学术会议会议论文摘要集[C];2017年
15 张兰平;;谈小学一年级算法多样化的优化[A];中华教育理论与实践科研论文成果选编(下)[C];2007年
16 杨红斌;;计划量算法的优化[A];第四届全国医院药剂科建设与管理学术研讨会论文集[C];2012年
17 林克旺;;基于分层网络实现高效的自稳定的选举算法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(下册)[C];2006年
18 徐晓敏;廖成;彭樊;王一帆;崔鹏;;基于并行田口算法的线阵低副瓣优化研究[A];2017年全国天线年会论文集(上册)[C];2017年
19 徐英钟;高震;李波;;基于禁忌搜索的蚁群算法求解旅行商问题[A];第四届中国智能计算大会论文集[C];2010年
20 叶衍;楼荣生;何永保;;自然联结的优化算法[A];第十二届全国数据库学术会议论文集[C];1994年
中国博士学位论文全文数据库 前20条
1 尧海昌;大规模基因序列压缩及其并行化算法研究[D];南京邮电大学;2021年
2 耿光超;电力系统稳定约束最优潮流:模型、算法与并行化[D];浙江大学;2014年
3 刘向辉;格基约化算法并行化及应用研究[D];解放军信息工程大学;2013年
4 王小根;粒子群优化算法的改进及其在图像中的应用研究[D];江南大学;2009年
5 徐杰;高速网络访问超点检测算法研究[D];东南大学;2019年
6 王冰;人工蜂群算法的改进及相关应用的研究[D];北京理工大学;2015年
7 浮婷;算法“黑箱”与算法责任机制研究[D];中国社会科学院研究生院;2020年
8 王艳娇;人工蜂群算法的研究与应用[D];哈尔滨工程大学;2013年
9 李美安;普适分布式互斥算法及应用[D];电子科技大学;2007年
10 刘婷;改进人工蜂群算法及其在多用户检测中的应用[D];天津大学;2013年
11 邱剑锋;人工蜂群算法的改进方法与收敛性理论的研究[D];安徽大学;2014年
12 肖建元;保几何结构算法在等离子体物理中的应用[D];中国科学技术大学;2017年
13 盛歆漪;粒子群优化算法及其应用研究[D];江南大学;2015年
14 张冬丽;人工蜂群算法的改进及相关应用研究[D];燕山大学;2014年
15 孔翔宇;几类优化问题的人工蜂群算法[D];西安电子科技大学;2016年
16 谭跃;具有混沌局部搜索策略的粒子群优化算法研究[D];中南大学;2013年
17 赵进慧;膜计算仿生优化算法及应用研究[D];浙江大学;2010年
18 王亚雄;障碍药带精准喷施技术与喷头雾化模型研究[D];北京林业大学;2018年
19 张松;人工蜂群算法研究及其应用[D];西安电子科技大学;2019年
20 朱亮;基于NUMA架构的多线程程序性能和能耗研究[D];华中科技大学;2016年
中国硕士学位论文全文数据库 前20条
1 刘馨;基因序列捕获芯片的研发和验证[D];福州大学;2017年
2 沈克琪;人类基因序列专利的审查标准研究[D];湘潭大学;2015年
3 沈玲玲;基因序列显示与分析系统[D];扬州大学;2009年
4 赵永磊;人类基因序列的专利保护[D];暨南大学;2010年
5 付永萍;基因序列的专利保护及相关问题研究[D];华东政法大学;2008年
6 王立昌;基于安全多方计算的分布式基因序列相似性计算[D];西北农林科技大学;2016年
7 詹培森;加权复杂网络的局部社区发现算法并行化研究与实现[D];华南理工大学;2013年
8 赵悦;子空间类超分辨算法并行化研究[D];哈尔滨工业大学;2010年
9 王宝庆;从18SrRNA基因序列变化探讨几株紫杉醇产生菌的系统进化[D];黑龙江大学;2005年
10 于静雯;复杂网络社团发现算法的并行化设计与研究[D];辽宁师范大学;2015年
11 秦军;参数自适应的差分进化算法及并行化研究[D];湖南师范大学;2016年
12 赵建齐;基于并行化的网络图压缩表示算法的研究[D];北京交通大学;2014年
13 魏书超;基于云计算的聚类算法并行化关键技术研究[D];沈阳航空航天大学;2015年
14 高彦明;蚁群算法并行化研究[D];苏州大学;2005年
15 范党平;大规模蛋白质相互作用网络的边介数聚类算法的并行化研究[D];兰州大学;2013年
16 张艳燕;最佳邻域匹配图像恢复算法的改进与并行化研究[D];内蒙古大学;2010年
17 何旭;频繁项集挖掘算法的并行化研究[D];东南大学;2019年
18 刘智勇;关联规则挖掘的并行化算法研究[D];东南大学;2016年
19 王虹旭;并行图挖掘算法的研究与实现[D];北京邮电大学;2015年
20 易志宇;关联规则挖掘算法及其分布式并行化研究[D];西南科技大学;2021年
中国重要报纸全文数据库 前20条
1 赵熙熙;基因序列揭示非洲人早期历史[N];中国科学报;2018年
2 记者 黄明明;3000株水稻基因序列公开发表[N];中国科学报;2014年
3 本报记者 付嘉鹏;我国对转基因序列检查未来将更加严格[N];粮油市场报;2014年
4 本报记者 江一舟 特约通讯员 张敬一;基因序列的“信息大字典”[N];东方烟草报;2014年
5 冯卫东;美研制出可将基因序列转译成图像的新工具[N];科技日报;2009年
6 记者 毛黎;不同植物种类存在相同基因序列[N];科技日报;2012年
7 本报记者 武晓莉;给冰冷的算法注入温暖[N];中国消费者报;2021年
8 中青报·中青网见习记者 罗希;中青校媒联合上交大媒体与传播学院发起《提高“算法素养”倡议》[N];中国青年报;2021年
9 王轶辰;算法也要有“说法”[N];经济日报;2022年
10 新华社记者 余俊杰;规范算法推荐活动,明确用户知情权选择权[N];新华每日电讯;2022年
11 本报评论员 吴迪;以公共利益为底色,引导算法技术向上向善[N];工人日报;2022年
12 记者 王思北 阳娜 周琳 颜之宏;大数据“杀熟”不能再“杀”了,算法推荐不能乱“推”了[N];新华每日电讯;2022年
13 记者 毛振华;算法不能变算计[N];新华每日电讯;2022年
14 湖北日报评论员 周磊;“算法”不是“算计”[N];湖北日报;2022年
15 本报记者 祖爽;剑指行业乱象 算法推荐进入严监管时代[N];中国商报;2022年
16 本报记者 徐艳红;法学专家:算法治理当“软”“硬”兼施[N];人民政协报;2022年
17 本报记者 宋婧;新规将算法装入监管“笼子”[N];中国电子报;2022年
18 东南网记者 卢金福;给算法应用戴上“紧箍咒”[N];福建日报;2022年
19 李贞;共促算法推荐健康有序发展[N];人民日报海外版;2022年
20 刘俊;促进算法推荐技术规范健康发展[N];人民日报;2022年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978