针对新一代测序技术的序列拼接算法研究
【摘要】:近年来,新一代测序技术不断涌现和发展。与费用高昂的Sanger测序技术相比,新一代测序技术不仅成本低,而且速度快,为完成更多基因组测序计划提供了可能。然而,新一代测序平台测得的序列片段长度短、数据量大、错误率较高,这给序列拼接带来了严峻的考验。因此,针对新一代测序技术产生的错误率较高的高通量短序列数据,研究高效的数据处理方法和序列拼接算法具有重要的意义。
本文在分析新一代测序技术和现有序列拼接技术的基础上,针对新一代测序数据错误率高的特点以及当前广泛运用于高通量短序列拼接的de Bruijn图拼接技术对测序错误敏感的问题,以提高拼接效果为目标,对新一代测序数据的处理和拼接展开了一定的研究,提出了一种能够有效修正序列片段中错误碱基的测序错误校正方法。该方法首先通过构造后缀数组(suffix array)寻找序列片段的匹配信息,然后通过多序列比对修正序列片段中可能存在的错误碱基。实验结果表明,使用该方法对序列片段进行预处理能够大大提高序列拼接效果。
另外本文针对新一代测序数据数据量的特点以及de Bruijn图序列拼接技术对内存要求较高的问题,以降低序列拼接对内存的要求为目标,提出了一种能够有效降低拼接数据量的序列片段并行聚类方法。该方法对序列片段进行相似性聚类,在聚类过程中采用空位种子索引(spaced seed indexing),具有较高的并行性,容易通过OpenMP实现聚类的并行化,能够大大减小搜索空间和搜索时间。实验结果表明,该方法能够在保证序列拼接效果的前提下对高通量短序列片段进行有效聚类,剔除冗余的序列片段,减少数据量。