收藏本站
《西安电子科技大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于FM-index的DNA序列数据压缩算法

李新娱  
【摘要】:DNA作为长期存储生物遗传信息的载体记录着具有极高研究价值的基因数据。而近几年,随着下一代测序(next-generation sequencing,NGS)技术的高速发展,海量的DNA数据不断的涌现,DNA信息的应用范围也越来越广。如何高效存储急剧增长的DNA数据信息并在其之上进行有效的随机访问和模式匹配操作,就成为了现代生物信息领域的重要研究课题之一。DNA数据是一种特殊的生物数据,它具有数据量大、数据字符集相对较小、数据重复度较高等特点,所以直接利用通用数据压缩索引算法对其进行压缩存储将无法获得理想的压缩效果。因此,我们就需要结合DNA数据的特点设计具出有针对性的DNA数据压缩索引算法,力图在保持一定查询效率的同时进一步提高DNA数据的压缩效率。本文首先利用DNA序列之间高度相似的特点设计了ALCS映射结构,该结构可以利用求取近似最长公共子序列ALCS的过程快速提取出两条相似DNA序列之间的差异信息并进行存储,从而有效地避免了序列间公共信息的重复存储现象。其中ALCS是本文在最长公共子序列LCS的基础上改进得出的一种简化结构,它采用局部最优的思想在保证信息正确映射的前提下,有效提高了映射结构整体的求取速率,并降低了求取过程所需的峰值内存。其次,本文在ALCS映射结构的基础上,针对DNA序列集设计并实现了一种高效的压缩索引算法ALCS-FM。该算法首先利用FM-index结构对参考序列创建压缩索引,再通过ALCS映射结构以及相关标记数组实现非参考序列向参考序列的信息映射,从而将完整的非参考序列信息转化成存储空间较小的差异信息,并结合参考序列的索引结构成功实现了对序列集范围内任意序列的随机访问和模式匹配操作。最后,针对结构中标记数组的数据特点,本文还设计了适用于高度稀疏0/1序列的混合编码结构和两条相似0/1序列的二元组存储结构,这些结构不仅可以实现对标记数组的有效压缩存储还可以支持ALCS-FM算法所必需的查询操作,从而有效提高了算法整体的压缩效率和查询效率。实验结果表明:ALCS-FM算法对不同相似度的多条DNA序列都有着非常显著的压缩效果,并且可以支持整个序列集范围内的随机访问和模式匹配操作。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:Q811.4;TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 龙英,刘虹,关志成,何晓威,蔡国平;Effects of Pulsed Electric Fields on DNA Synthesis in an Osteoblast-Like Cell Line (UMR-106)[J];Tsinghua Science and Technology;2000年04期
2 徐耀忠;Thiobase DNA: the chemistry and some applications in cancer studies[J];Progress in Natural Science;2000年06期
3 傅衍 ,牛冬 ,阮晖 ,陈海燕;COMPARISON OF DIFFERENT ENZYMES AND PROBES AND THEIR COMBINATIONS IN DNA FINGERPRINTING[J];Journal of Zhejiang University Science;2001年04期
4 安小惠 ,王一理 ,来宝长 ,耿一萍 ,司履生;CONSTRUCTION OF HUMAN INTERLUEKIN-18 DNA VACCINE AND IT'S EXPRESSION IN MAMMALIAN CELLS[J];Journal of Xi'an Medical University;2001年02期
5 张鹏 ,孟继本 ,龙江 ,松浦辉男 ,王永梅;Synthesis of Benzo [α]phenoxazin-5-one Derivatives and Their Interactions with DNA[J];Chinese Journal of Chemistry;2002年05期
6 ;DIFFERENT RESULTS BY DIFFERENT COMMERCIAL TAQ DNA POLYMERASE IN RAPD[J];四川动物;2002年02期
7 ;Genetic Diversity of Three Aristichthys nobilis Populations and One Inbreeding Stock[J];Wuhan University Journal of Natural Sciences;2002年02期
8 强晓艺;DNA计算的应用与展望[J];西安联合大学学报;2002年02期
9 王军阳,范桂香,胜利,袁育康;THE CONSTRUCTION AND PRELIMINARY APPRAISEMENT OF HSV-2 gD GENE DNA VACCINE[J];Academic Journal of Xi'an Jiaotong University;2002年02期
10 董菁 ,成军 ,王勤环 ,施双双 ,王刚 ,斯崇文;CLONING AND ANALYSIS OF THE GENOMIC DNA SEQUENCE OF AUGMENTER OF LIVERR EGENERATION FROM RAT[J];Chinese Medical Sciences Journal;2002年02期
中国重要会议论文全文数据库 前10条
1 Michael J.Siefkes;Cory O.Brant;Ronald B.Walter;;A novel real-time XL-PCR for DNA damage detection[A];渔业科技创新与发展方式转变——2011年中国水产学会学术年会论文摘要集[C];2011年
2 ;Hormonal Regulation and Tumorigenic Role of DNA Methyltransferase[A];2011中国妇产科学术会议暨浙江省计划生育与生殖医学学术年会暨生殖健康讲习班论文汇编[C];2011年
3 Dongmei Zhao;Fan Jin;Yuli Qian;Hefeng Huang;;Expression patterns of Dnmtl and Dnmt3b in preimplantational mouse embryos and effects of in-vitro cultures on their expression[A];中华医学会第十次全国妇产科学术会议妇科内分泌会场(妇科内分泌学组、绝经学组、计划生育学组)论文汇编[C];2012年
4 姜东成;蒋稼欢;杨力;蔡绍皙;K.-L.Paul Sung;;在聚吡咯微点致动下的DNA杂交行为[A];2008年全国生物流变学与生物力学学术会议论文摘要集[C];2008年
5 白明慧;翁小成;周翔;;联邻苯二酚类小分子作为DNA交联剂的研究[A];第六届全国化学生物学学术会议论文摘要集[C];2009年
6 张晔;杜智;杨斌;高英堂;;检测外周血中游离DNA的应用前景(综述)[A];天津市生物医学工程学会第29届学术年会暨首届生物医学工程前沿科学研讨会论文集[C];2009年
7 周红;郑江;王良喜;丁国富;鲁永玲;潘文东;罗平;肖光夏;;CpG DNA诱导全身炎症反应综合征的作用及其机制研究[A];全国烧伤创面处理、感染专题研讨会论文汇编[C];2004年
8 ;EFFECTS OF Ku70-DEFICIENT ON ARSENITE-INDUCED DNA DOUBLE STRAND BREAKS, CHROMOSOMAL ALTERATIONS AND CELL CYCLE ARREST[A];海峡两岸第三届毒理学研讨会论文摘要[C];2005年
9 李经建;冀中华;蔡生民;;小沟结合方式中的DNA媒介电荷转移[A];第十三次全国电化学会议论文摘要集(下集)[C];2005年
10 ;The interaction between Levofloxacine Hydrochloride and DNA mediated by Cu~(2+)[A];湖北省化学化工学会2006年年会暨循环经济专家论坛论文集[C];2006年
中国重要报纸全文数据库 前10条
1 本报记者 袁满;平安:把“领先”作为DNA[N];经济观察报;2006年
2 舒放;编织一个DNA纳米桶[N];医药经济报;2006年
3 闫洁;英两无罪公民起诉要求销毁DNA记录[N];新华每日电讯;2008年
4 何德功;日本制成诊断鱼病的“DNA书”[N];农民日报;2004年
5 本报记者 张巍巍;DNA样本也能作假[N];科技日报;2009年
6 周斌伟 邹巍;苏州警方应用DNA技术一年侦破案件1887起[N];人民公安报;2011年
7 本报记者 杨天笑;揭秘“神探”DNA[N];苏州日报;2011年
8 第四军医大学基础医学部生物化学与分子生物学教研室教授 李福洋;破除法老DNA的咒语[N];东方早报;2011年
9 常丽君;DNA电路可检测导致疾病的基因损伤[N];科技日报;2012年
10 常丽君;效率和质量:“DNA制造业”两大障碍被攻克[N];科技日报;2012年
中国博士学位论文全文数据库 前10条
1 唐阳;基于质谱技术的基因组DNA甲基化及其氧化衍生物分析[D];武汉大学;2014年
2 池晴佳;DNA动力学与弹性性质研究[D];重庆大学;2015年
3 胡璐璐;哺乳动物DNA去甲基化过程关键酶TET2的三维结构与傕化机制研究[D];复旦大学;2014年
4 马寅洲;基于滚环扩增的DNA自组装技术的研究[D];南京大学;2014年
5 黄学锋;精子DNA碎片的临床意义:临床和实验研究[D];复旦大学;2013年
6 隋江东;APE1促进DNA-PKcs介导hnRNPA1磷酸化及其在有丝分裂期端粒保护中的作用[D];第三军医大学;2015年
7 刘松柏;结构特异性核酸酶FEN1在DNA复制及细胞周期过程中的功能性研究[D];浙江大学;2015年
8 王璐;哺乳动物中亲本DNA甲基化的重编程与继承[D];中国科学院北京基因组研究所;2015年
9 齐文靖;染色质改构蛋白BRG1在DNA双链断裂修复中的作用及机制研究[D];东北师范大学;2015年
10 龙湍;水稻T-DNA插入突变群体侧翼序列的分离分析和OsaTRZ2的克隆与功能鉴定[D];华中农业大学;2014年
中国硕士学位论文全文数据库 前10条
1 李新娱;基于FM-index的DNA序列数据压缩算法[D];西安电子科技大学;2017年
2 董洪奎;面向可视化纳米操作的DNA运动学建模及误差实时校正方法[D];沈阳理工大学;2014年
3 闻金燕;水溶性羧基和吡啶基咔咯大环与DNA和人血清蛋白的相互作用[D];华南理工大学;2015年
4 江怿雨;水溶性羧酸卟啉及其配合物与DNA和人血清蛋白的相互作用[D];华南理工大学;2015年
5 高志森;比较外周游离循环肿瘤DNA与癌胚抗原监测非小细胞肺癌根治术前后肿瘤负荷变化的初步研究[D];福建医科大学;2015年
6 丁浩;血浆循环DNA完整性及多基因甲基化对肺癌诊断价值的研究[D];河北大学;2015年
7 王鹏;基于碳点@氧化石墨烯复合材料DNA生物传感器的构建及用于PML/RARα基因检测[D];福建医科大学;2015年
8 李海青;转碱篷和盐角草总DNA的耐盐紫花苜蓿的选育[D];内蒙古大学;2015年
9 李婷婷;小鼠DNA模式识别重要受体的分子结构特征及其功能研究[D];中国农业科学院;2015年
10 刘瑞斯;抗癌药物奥沙利铂与DNA相互作用的原子力显微镜观察研究[D];东北林业大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026