支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究
【摘要】:定量结构-性质/活性相关(QSPR/QSAR)研究是计算化学和化学信息学研究中的重要研究热点之一。它主要应用各种统计学方法和理论计算方法研究有机化合物的结构与其各种物理化学性质以及生物活性之间的定量关系。QSPR/QSAR的研究对象包括化合物的各种物理化学性质、生物活性、毒性、药物的各种代谢动力学参数等等,研究领域涉及化学、化工、环境化学、药物化学等诸多学科。
建立准确的定量数学模型一直是QSPR/QSAR研究的追求目标之一,而建模方法又是决定模型好坏的一个关键因素,因此新方法的发展一直是QSPR/QSAR研究中的一个重要任务。本论文在研究小组过去10余年来对神经网络方法(ANN),包括BP网络和RBFNN网络的研究基础上,将支持向量机(SVM)方法应用到化学、环境化学和药物化学等领域中,进行了1100多种化学物质的性质、环境毒物的毒性和药物有关的性质的预测,建立了准确的定量结构性质/活性关系模型。
论文第一章简述了定量结构性质/活性关系(QSPR/QSAR)的基本原理,研究过程以及研究现状,其中在研究过程中着重介绍了建模方法。在指出当前神经网络建模方法不足的基础上,详细介绍了一种新的机器学习算法—支持向量机方法,并概括和展望了其在QSPR/QSAR中的应用。
在第二章中,我们将SVM和RBFNN方法应用到化学领域中,主要包括以下几个方面的研究工作:
(1)应用多元线性回归(MLR)和SVM方法建立了预测364个有机化合物的范德华常数的QSPR模型。MLR不仅用来建立线性回归模型,同时也作为选择SVM输入描述符的方法。SVM模型的训练集、交互检验集、测试集和整个数据集的均方误差(Mean Square Error,MSE)分别为:常数a:5.96,8.00,6.67和6.65;常数b:9.56×10~(-5),3.18×10~(-4),4.22×10~(-4)和2.33×10~(-4)。
(2)应用启发式(HM)和SVM方法分别建立了149个易挥发有机化合物的气相色谱保留时间和5个分子描述符之间的线性和非线性QSRR模型。非线性的SVM模型的结果优于线性HM模型的结果,对于测试集均方误差MSE分别为1.094和1.644。而且预测值与实验值是非常一致的。
(3)用HM和RBFNN方法建立了预测63个有机小分子化合物在低密度聚乙烯上的渗透系数的定量模型。它建立的模型与以往的模型相比,有同样的可靠性。这