收藏本站
《兰州大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

QSPR/QSAR在药物、分析化学和环境科学中的应用

任月英  
【摘要】: 化合物结构与性质/活性定量关系(quantitative structure-property/activity relationship,QSPR/QSAR)的研究最初应用在生物领域,是定量药物设计的一个研究分支领域,为了适应合理设计生物活性分子的需要而发展起来的。由于计算机技术的发展和应用,QSPR/QSAR的研究提高到了一个新的水平,日益成熟,其应用范围也迅速扩大,涉及到生物,药物科学,化学以及环境科学等诸多学科。人们期望用一个成功的运算模型,能从分子水平上理解分子的微观结构同其宏观性质/活性之间的关系,为设计,筛选或预测具有人们期望的性质的化合物提供信息,并据已有的知识,探求化合物性质/活性与结构的相互作用规律,从而推论呈现化合物某些性质的影响因素。 化合物结构与性质,性质与性质之间不仅有线性关系,而且还存在非线性关系。不同的问题需要用不同的方法来解决。对于线性问题,运用回归分析等方法即可解决。非线性问题的处理相对就要复杂的多。对于简单的非线性问题,通过恰当的数学转换将其转化为线性问题处理;不能转化为线性问题时,我们可以用一个恰当的非线性函数,通过拟合来解决问题;若问题更复杂时,即碰到那些因果关系不明了,推理规则不确定的非线性问题,可以采用多种机器学习方法来逼近,如神经网络(Artificial neural network,ANN),支持向量机(support vector machine,SVM)以及投影寻踪回归(Projection pursuit regression,PPR)等方法。 本论文第一章简述了定量结构性质/活性关系的基本原理和研究现状,详细描述了QSPR/QSAR实现步骤以及其中牵涉到的一些问题,并对这一研究领域的最新进展进行了总结和展望。本学位论文从分子结构的定量描述和结构与性质/活性定量关系的建立入手,探索了多种方法在QSPR/QSAR建模中的应用,主要进行了以下三方面的研究工作: ●线性回归方法在QSPR/QSAR研究中的应用 具体研究内容包括: 1.用启发式回归方法(Heuristic Method,HM)建立了42种热致液晶分子的向列转变温度和其结构之间的定量结构性质相关模型。所得的5参数线性方程对测试集的判定系数R~2=0.9216,预测的均方根误差RMSE=6.3654,绝对平均相对误差AARD=9.2017%,均优于文献结果。 2.用最佳多元线性回归(Best Multi-linear Regression,BMLR)方法建立了线性模型,研究了209种多氯联苯GC×GC-TOFMS保留时间与其结构之间的相关。所得模型用两种方法进行检验:测试集和6-fold交互检验集。测试集的判定系数R~2高达0.975,AARD则是3.08%,6-fold交互检验集的AARD平均数值为3.21%,两者结果很相似,说明所建的模型稳健且预测能力很好。 3.用启发式回归方法建立了线性模型,预测152种C_5-C_8链状单烯烃在聚二甲基硅氧烷(Polydimethysiloxane,PDMS)和角鲨烷(Squalane,SQ)固定相的Kováts保留指数。该研究中我们首次将一类新的结构描述符—3D拓扑图形连接性指数应用于色谱保留指数的预测。3D拓扑图形指数能对分子的三维电子结构特征作更准确地描述,它们与CODESSA软件计算的其他5类描述符相结合,对链状烯烃的色谱保留指数作关联分析。结果表明,3D拓扑图形指数在对色谱保留指数的关联方面比起传统的二维分子连接性指数更加敏感,所得模型不仅具有很好的预测能力,而且还能区分烯烃同分异构体。对两种固定相体系,所得模型中都有相同的三个参数,对测试集的判定系数R~2分别是0.97(PDMS)和0.958(SQ),AARD分别是1.37%(PDMS)和1.52%(SQ)。 ●支持向量机(Support vector machine,SVM)在QSPR/QSAR研究中的应用具体研究内容包括: 1.应用支持向量机(SVM)以及线性判别分析(Linear Discriminant Analysis,LDA)对131种皮肤敏感性化合物的分类研究。SVM模型对训练集和测试集的预测准确率分别是89.77%和72.09%,均优于LDA的79.55%和67.44%。另外考虑到样本的多样性,我们对整个数据集作了10-fold交互检验,其结果与SVM对测试集的预测结果基本一致,说明SVM模型是稳健的。 2.应用SVM建立了62个聚乙氧基型非离子表面活性剂浊点(cloud point,CP)的定量预测模型。计算了三类描述符:组成,拓扑和几何描述符,总计88个,用启发式回归搜索方法筛选出了对浊点具有最佳关联的4个参数的线性模型,对测试集样本预测的RMSE为8.0824,AARD为16.1955%,判定系数R~2为0.9318。用这4个参数作为输入向量,应用SVM建立了非线性模型,对测试集预测的RMSE为4.2727,AARD为9.5490%,判定系数R~2为0.9765。可以看出SVM模型预测的结果更加准确。 3.应用SVM建立了137种分子总氢键酸度与分子结构特征之间的定量结构性质相关模型。采用启发式回归方法筛选出包含5个描述符的最优组合,然后用这些描述符作为输入,分别建立了多元回归(Multiplier Linear Regression,MLR)模型,径向基函数神经网络(Radial Basis Function Neural Network,RBFNN)模型以及SVM模型相比较。其中,SVM模型的预测结果最佳,对于测试集的R~2,RMSE以及AARD分别是0.8829,0.0650和5.748%,分别优于MLR模型的0.7845,0.0863和19.63%以及RBFNN模型的0.8655,0.0772和24.46%。 4.应用SVM建立模型预测了112个链烃和芳香烃在大气对流层中与NO_3自由基反应的速率常数。采用启发式回归方法筛选出最佳描述符组合,并用同样的描述符作为输入,分别建立了MLR模型,RBFNN模型以及SVM模型,对三种模型的预测性能做了对比。线性模型对于测试集的预测的判定系数R~2=0.882,RMSE=0.866,AARD=5.023%;RBFNN模型的结果稍好,为R~2=0.933,RMSE=0.687和AARD=3.850%;而SVM模型则最好,分别是R~2=0.950,RMSE=0.577以及AARD=3.343%。 ●投影寻踪回归(projection pursuit regression,PPR)在QSPR/QSAR中的应用具体研究内容包括: 1.应用投影寻踪回归(PPR)方法建立了模型对116个有机物与O_3在大气对流层中反应速率常数作了预测。用启发式方法选取的描述符作为输入向量,我们分别用MLR,SVM和PPR方法建立了模型,并对它们的预测性能做了比较。启发式方法选择的参数为7个,相应建立的线性回归方程对于测试集的预测结果为R~2=0.824,RMSE=1.342,AARD(%)=5.895;采用SVM方法建模,对于测试集的预测结果比线性方程准确,分别是R~2=0.875,RMSE=1.165以及AARD=4.896%;相比较用PPR建模的结果最佳,该模型对于测试集的R~2增加到0.912,而RMSE和AARD(%)则分别减小为1.041和4.663。另外,PPR的训练过程简单,快速且占较少的内存,这是SVM无法比拟的。 2.PPR与遗传算法(Genetic Algorithm,GA)结合建立了模型预测了80个类药分子和β_1型人体甲状腺激素受体的结合强度,并对分子结构与结合强度作了相关分析讨论。GA最终选择了6个变量(既有线性的也有非线性的),用这六个变量分别建立了MLR方程和PPR模型。MLR模型的结果很差,对于测试集预测的判定系数R~2仅为0.7233,AARD=8.28%,RMSE=0.7172,而PPR的预测结果则是R~2=0.8928,AARD=4.19%,RMSE=0.4498。很显然,PPR模型能更加准确地拟合这些变量与结合强度之间的关系。 3.应用PPR建立了288种离子液体熔点与其结构特征之间的定量结构性质相关模型,对熔点作了预测。我们采用启发式回归搜索方法来筛选最佳描述符组合,并用选取的描述符作为输入向量,分别建立了MLR模型和PPR模型,对两个模型的预测能力作了比较。结果表明,PPR模型的预测能力较MLR模型更为准确,预测的R~2=0.810,AARD(%)=17.75,优于多元线性回归模型的R~2=0.712和AARD(%)=24.33。此外,通过描述符与熔点之间的相关分析,我们还总结出了一些分子结构特征对于离子液体熔点影响的规律,从而为离子液体的功能化设计提供信息。
【学位授予单位】:兰州大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:O641

【相似文献】
中国重要会议论文全文数据库 前10条
1 姚建华;;化学信息学的应用和发展[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
2 白银娟;张逢星;董秦生;;化学信息学教学实践与探索[A];第八届全国大学化学教学研讨会论文集[C];2005年
3 邵学广;徐筱杰;;化学信息学(计算机化学)的研究进展[A];化学学科发展研究报告(2008-2009)[C];2008年
4 谢微;黄迎;朱福成;沈天翔;姚建华;;化学信息学的未来[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
5 梁逸曾;;化学计量学、化学信息学与生物信息学——定义、内涵及其融合趋势的几点思考[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
6 谢微;沈天翔;朱福成;黄迎;姚建华;;化学信息学在化学物质安全性评价中的应用[A];中国化学会第26届学术年会环境化学分会场论文集[C];2008年
7 邵学广;蔡文生;徐恒;;化学信息学近期研究进展[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
8 熊庆;李功兵;郭延芝;李梦龙;;信息技术辅助化学信息学课程建设[A];中国化学会第27届学术年会第17分会场摘要集[C];2010年
9 黄迎;冯樑;解丽娜;凌敏;陈碧玲;姚建华;;化学信息学在有机环境污染物管理工作中的应用[A];中国化学会第27届学术年会第02分会场摘要集[C];2010年
10 冯樑;解丽娜;凌敏;胡静;黄迎;陈碧玲;王宇辉;李佳;姚建华;;化学信息学方法在中药研究中的应用[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
中国重要报纸全文数据库 前10条
1 EVOLVE;生物信息学和化学信息学双剑合壁造新药[N];中国高新技术产业导报;2002年
2 ;“生物”、“信息”联手合璧造新药[N];医药经济报;2003年
3 本报实习记者 高成森;计算机分子模拟技术——使生命科学研究更精彩[N];中国医药报;2002年
4 ;李松:孜孜不倦攀高峰[N];科技日报;2002年
5 肖峰;论“信息主义”的兴起[N];光明日报;2007年
6 蒋寒;提高新药新材料研发效率[N];科技日报;2005年
7 岳阳;我国亟待完善外源化学物质安全预警系统[N];中国医药报;2006年
8 崔静;专家呼吁探索“旧药新用”促进创新[N];医药经济报;2007年
9 余志平;组合信息学——大踏步进入后基因组时代[N];医药经济报;2002年
10 记者 吴苡婷;“池塘”效应 蓄活水造人才[N];上海科技报;2007年
中国博士学位论文全文数据库 前10条
1 任月英;QSPR/QSAR在药物、分析化学和环境科学中的应用[D];兰州大学;2007年
2 胡黔楠;化学信息学中的数据挖掘[D];中南大学;2004年
3 赵春燕;QSAR研究在生命分析化学和环境化学中的应用[D];兰州大学;2006年
4 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
5 司宏宗;基因表达式编程与支持向量机在疾病诊断和QSAR/QSPR中的应用研究[D];兰州大学;2006年
6 陈蕾;原始蛋白酶结构功能的生物信息学分析及化学基础[D];山东师范大学;2009年
7 杜红英;化学信息学新算法及在化学、生物与食品科学中的应用研究[D];兰州大学;2009年
8 王杰;数学建模方法在药物化学及大鼠大脑新陈代谢中的应用研究[D];兰州大学;2009年
9 马广立;口服药物吸收属性与人体药时曲线预测方法研究[D];浙江大学;2007年
10 袁永娜;QSPR/QSAR在化学、药物化学和环境科学中的应用研究[D];兰州大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘志刚;天然药物网络数据库中活性分子3D结构的实现及其构效关系研究[D];四川大学;2002年
2 王冰;SVM在肾结石分类和计算热力学参数中的应用[D];兰州大学;2006年
3 阮晓芳;支持向量机方法在医学和环境化学中的应用研究[D];兰州大学;2007年
4 曹庆文;常用化学数据资源库的构建和基于ASP的WEB管理信息系统的设计与实现[D];四川大学;2003年
5 李学娟;中药中的西药成分分析及其对组合药物设计的指导意义[D];山东理工大学;2008年
6 姜莹英;氧气对代谢进化的影响:化学信息学与生物信息学的综合研究[D];山东理工大学;2010年
7 姜林;化学信息学方法研究及其在环境、生物学中的应用[D];四川大学;2006年
8 张静;MDL数据库与虚拟筛选技术跨平台对接技术研究与应用[D];长春理工大学;2009年
9 段爱霞;一些化学信息学方法在离子液体和生物学中的应用研究[D];西北师范大学;2009年
10 周新奇;小分子物质结构与熔点及蛋白亲和性定量构效关系研究[D];中南大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026