基于深度学习和串联质谱离子信息的蛋白质从头测序方法研究
【摘要】:近年来,随着分子生物学、质谱技术等的飞速发展,蛋白质组学的研究受到了越来越多的关注,并在许多领域都得到了广泛应用。作为蛋白质组学的一项关键技术,从头测序方法能够直接根据串联质谱鉴定得到肽段的氨基酸序列,具有其他蛋白质鉴定方法不可替代的优势。然而,肽键断裂过程可能导致离子碎裂不完整、串联质谱中可能存在噪声等诸多因素,在一定程度上增加了从头测序方法的难度,从而也会影响肽段序列鉴定的准确性。DeepNovo方法首次将深度学习与从头测序方法结合,通过利用神经网络更好地学习串联质谱中碎片离子的特征信息,在氨基酸水平和肽段水平上的鉴定准确性均远远优于现有的其他从头测序方法,同时也体现了深度学习在生物质谱分析以及蛋白质鉴定等相关研究中的重要作用。然而,DeepNovo方法在进行从头测序时仍然存在一些不足之处。一方面,由于DeepNovo方法只考虑串联质谱中的b系列碎片离子和y系列碎片离子,对串联质谱中碎片离子的学习不全面,可能会影响肽段鉴定结果的准确性;另一方面,DeepNovo方法采用固定的迭代次数训练模型,导致模型不具有自适应性,不利于从头测序方法准确性的提高。基于深度学习和串联质谱中的离子信息,本文对DeepNovo方法进行改进:通过加入串联质谱中的a碎片离子信息,考虑更多串联质谱中碎片离子的特征信息及其关联关系,进一步提高蛋白质从头测序的准确性和可靠度,同时,通过引入验证集自动控制深度学习的迭代次数,确保从头测序模型具有自适应性,旨在提高模型的泛化能力。实验结果表明,与DeepNovo方法相比,本文加入串联质谱中a碎片离子信息、引入验证集自动控制深度学习迭代次数的做法均可有效提高从头测序的准确性。另外,由于综合考虑了串联质谱中a碎片离子信息和验证集,本文提出的DeepNovoA+方法在提高从头测序准确性方面表现最佳,同时,肽段的长度越长,DeepNovoA+方法的潜在优势越明显。