真核启动子预测
【摘要】:本文分为两部分:真核启动子预测和生物大分子定量构效关系(QSAR)研究。
基因转录是遗传信息传递和表达的枢纽,是基因表达调控机制发挥作用的重要环节。而启动子是决定转录起始点和转录频率的关键元件,因此启动子的识别对整个基因组功能的诠释具有重要作用。本文第一部分采用人工神经网络(ANN)、遗传算法(GA)和马尔科夫模型(MM)这三种模式识别算法,对启动子、外显子和内含子序列中核苷酸联体的分布特性作深入探讨,发现其中的某些普遍规律,并建立识别这些DNA序列基元特征模式的神经网络模型或马尔科夫模型,已成功用于未知序列的预测。本文第一部分开展的工作和所得结论如下:
1.发展了一种新的基于内容的真核生物蛋白编码基因启动子预测方法。分别建立三种不同DNA功能区域(启动子、外显子和内含子)的位置特异性权值矩阵(PWM),通过序列在三个DNA功能区域对应的位置特异性权值矩阵中的分值来作为特征参数量化序列信息,并通过反传神经网络(BP-ANN)建立序列特征参数与序列所属类别之间的映射关系来区分启动子和非启动子序列。实验结果表明:以此方法为基础构建的系统在训练集和测试集上均表现良好,对训练集和测试集中序列的平均预测率分别为99%和97%。
2.尝试将遗传算法与神经网络结合,用遗传算法优化神经网络的连接权值,建立遗传神经网络(GA-ANN)模型,并在此模型的基础上发展了一种新的基于内容的真核生物蛋白编码基因启动子预测方法。实验结果表明:我们以此模型为基础构建的GA-ANN系统对训练集和测试集中的启动子序列均能有效识别,在训练集和测试集上的平均预测率分别为99%和98%,优于先前建立的BP-ANN系统。
3.发展了一种基于马尔科夫链理论的人类蛋白编码基因启动子预测方法。三条马尔科夫链分别用于模拟启动子、外显子和内含子区域的序列随机生成过程并以此建立相应区域的概率模型,通过计算待预测序列在三个DNA功能区域出现的概率来对其所属类别进行判定,出现概率越大,表明该序列内部碱基状态转移模式最贴合相应区域概率模型所生成的序列模式,即序列出现在该区域的可能性最大,从而判定序列属于该功能区域。一个包含400条人启动子序列、400条人外显子序列和400条人内含子序列的数据集被用于训练和测试了以此方法为基础构建的系统。实验结果表明所构建的系统能较好地区分这三种不同的DNA序列,在测试集中平均分类准确性达84%。
QSAR是考察和分析基本分子结构特征与物化性质或生物活性之间的定量相关关系。针对DNA活性位点核苷酸序列和蛋白质(多肽)中氨基酸序列的序列定
重庆大学博士学位论文
量构效关系(QsAM)研究是后基因组即功能基因组或蛋白质组研究中的一个前沿
课题,对DNA和蛋白质的相互作用研究、蛋白质功能预测、基于蛋白质和以蛋白
质为靶标的药物设计均具有重要意义。分子结构参数化是进行定量构效关系研究
的重要组成部分和关键前提所在。本实验室曾提出了仅以各种非氢原子电负性及
各原子之间的相对距离为主要分子结构特征的分子电性距离矢量(州田DV)用于
药物分子和其它生物活性物质的结构表征。本文第二部分在本实验室前期工作的
基础上,对MEDV的应用范围进行扩展,将其分别应用于DNA和多肤的结构表
征中。同时在原子类型划分方面对原有MEDV进行了改进,提出按键分类的分子
电性距离矢量(BMEDV),使之更能体现原子所处微环境对原子电负性和分子活
性的影响。本文第二部分开展的工作和所得结论如下:
1.将MEDv的应用范围扩展至DNA体系,应用到启动子强度的QSAR研究
中。由于DNA序列的结构差异主要表现在碱基上,在对启动子进行结构表征时,
采用对整个启动子进行表征(V从L)和仅用碱基进行表征(Vss)两种方案。借助
多元线性回归(MLR)和逐步回归(S侧[R.)技术,分别建立两种表征方案下MEDV
参数与启动子强度之间的最优QSAR模型。结果表明:v从L和vss方案下选择最
佳参数的个数都为2,分别为呱3、嶙;和M小M23;两种方案下的相关系数分别
为0.902、0.905;交互检验相关系数分别为0.878、0.882;说明模型具有良好的估
计能力和较强的预测能力。同时,通过对两种方案进行对比分析发现:无论是估
计能力还是预测能力,Vss表征方案都优于V从L表征方案。这说明了DNA的结构
特征主要表现在碱基上,可以用碱基代替DNA进行结构表征与QsAR研究,从而
减小计算复杂度,提高研究效率。
2.提出一个新的分子结构描述子一按键分类的分子电性距离矢量(B MEDV)
来表征变形虫穿孔肤及其类似物的分子结构,以对人类病原体白色念珠菌(Candida
alhicans)的最低生长抑制浓度(如C)的对数值为抗菌活性指标,借助多元线性
回归和逐步回归分别建立QsAR模型。结果表明:所得模型相当稳定且有较强的
预测能力;VALL、Vs、Vss、VMos、VMoss五种表征方案下最优模型的相关系数分
别为:0.943、0.912、0.904、0.866、0.945;交互检验的相关系数分别为:0.737、
0.843、0.815、0.745、0.830。通过对五种表征方案进行对比分析发现,多肤的结
构特征主要表现在氨基酸的残基上,可以用残基的矢量描述子来表征整个多肤的
结构,从而使表征过程更为简洁有效?
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|