基于深度学习的有机化合物合成可行性预测
【摘要】:从巨大的化学空间中发现新的候选药物一直是药物化学家面临的一项重大挑战。作为计算机辅助药物设计的两种主流技术,虚拟筛选方法能从现有大型化合物数据库中筛选出最有可能与药物靶标结合的候选分子,而从头药物设计方法则使用分子生成技术产生具有潜在治疗效果的全新候选分子。不幸的是,由于在筛选或分子生成过程中往往很少考虑化合物的合成可行性,导致部分计算机推荐的分子很难甚至无法合成,进而大大降低了先导化合物发现和优化的效率。目前已有几种基于专家知识的预测方法和基于分子描述符的定量构效关系(QSAR)模型可用于分子合成可行性的评估,但由于其预测精度低和模型可解释性差等缺陷,它们在药物发现中的应用仍然相当有限。此外,部分结构相似分子的可合成性差异较大,但现有的预测方法对这些相似分子的区分能力较弱,因此如何准确快速地评估相似小分子的合成可行性也至关重要。在本论文中,我们采用基于图注意力机制的深度学习算法发展了用于分子合成可行性预测的可解释模型,并探讨了在假设的决策边界附近采样对预测模型的影响。主要内容及结果如下:(1)首先,收集了来自不同公共数据库的800,000个化合物,并基于图注意力机制构建用于分子合成可行性预测的二分类深度学习模型及经典的图卷积神经网络模型。基于不同的分子描述符组合,采用随机森林和极限梯度提升算法构建一系列机器学习模型。在所有预测模型中,基于图注意力机制的深度学习模型具有最好的泛化能力,在3个外部测试集上的预测准确度分别为0.985、0.801和0.759,AUC分别为0.999、0.881和0.850。通过分析测试集中分子结构相似度进一步表明了基于注意力机制的模型在区分高度相似的分子上更具优势,因此更加适用于真实化学空间中的分子合成可行性的预测。(2)此外,通过将单个原子权重映射到化合物上的方法对基于图注意力机制的模型的预测结果进行解释,分析单个原子对分子合成可行性预测结果的贡献和影响。通过计算原子状态向量间的皮尔森相关系数分析原子特征是如何演化的,结果表明引入注意力机制可以捕获到化学结构中的非局域效应。(3)最后,基于已构建的图注意力机制模型搭建了用于分子合成可行性预测的在线平台GASA,该平台可实现基于文本或结构的单个或批量数据的预测。此外,我们还提供了常用虚拟筛选库中化合物的可合成性预测结果供用户下载,旨在帮助药物研究人员在药物设计工作流程中快速筛选易于合成的分子。