新一代基因组测序的概率统计模型
【摘要】:
在鸟枪法测序的数学模型中,最主要的两个是Lander-Waterman模型与Roach的精确计算模型。鸟枪法测序的基本问题在前者中得到了很好的解决,后者利用次序统计量作为分析工具,对该问题提出了比较精确的计算方法。两个模型都是针对片段较长、覆盖率较低的传统测序进行研究的,因此只讨论了覆盖深度为1的岛。尽管其结果对新一代基因测序来说也是正确的,但这两个模型都不能深刻地反映新一代基因测序片段长度短,覆盖深度较高的特点。
针对新一代基因组测序,以de Bruijn为基础的de nova拼装算法对测序错误的处理方法是通过提前设置一个阈值来过滤错误的k-tuple。也就是阈值的大小直接关系着拼装结果的好坏,但是,到目前为止如何确定阈值还没有一个有力的理论依据。
本文中,我们针对新一代基因组测序提出了一个新的数学模型,该模型解决了鸟枪法测序中不同覆盖深度下广义岛的统计问题。同时利用随机过程理论对该模型作了深入的研究,对于一个岛中片段个数给出了计算公式。本模型中关于岛分布的一些理论结果与蒙特卡罗模拟的结果完全吻合。因此,该模型可以对新一代测序工艺以及短序列拼装算法设计提供理论上的指导。