收藏本站
《大连理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

预测蛋白质功能位点的几种新数学模型

窦永超  
【摘要】:近年来,生物信息学逐渐渗透到生物学的各个研究领域,悄然改变着传统生物学的研究方式。其作用主要体现在两个方面:(1)借助计算机和数学方法处理海量的生物数据,通过数据挖掘发现其中隐藏的生物学规律。(2)通过数学建模的方法对传统生物学难题进行分析和预测,从而为生物学实验的设计提供帮助。作为生物信息学中一个重要的公开问题,蛋白质功能位点预测就是一个典型的通过数学建模方法对传统生物学问题进行分析和预测的例子。通过数学模型对一条蛋白质链中各个位点是功能位点的潜在可能性进行打分,其结果能为传统的“位点突变”实验方法提供直接的帮助。本文我们关注于该领域中的催化位点预测问题,主要成果有: (1)在第二章,提出了两种新的氨基酸背景频率来代替氨基酸的观测背景频率;在度量氨基酸物理化学性质的保守性时,不同于在已往的方法中采用的氨基酸非交叉分类,我们采用了Taylor的氨基酸10种交叉分类来描述氨基酸的物理化学性质;我们还把氨基酸物理化学性质的背景频率引入到相对熵的模型中,用来消除氨基酸物理化学性质的进化压力。 (2)在第三章,研究了基于机器学习的催化位点预测方法。首先提出了一种基于序列的催化位点预测方法,该方法中我们使用了数种新的基于序列的特征和L1-logreg分类器。结果表明我们的新特征要优于已有的特征,同时L1-logreg分类器的速度要远远地快于常用的支持向量机的速度;然后我们测试了如何在机器学习方法中使用保守性特征,发现该类特征为基于机器学习的方法提供了主要信息,但结合序列和结构上邻近位点的保守性信息不一定为预测提供帮助。 (3)在第四章,研究了如何使用ROC分析评价催化位点预测方法。我们提出了一种新的序列特异策略,实验表明我们的新策略很好地克服了位点特异策略的缺点,能够更准确的评价一个方法的表现,故我们建议在以后的工作中采用该策略。
【关键词】:生物信息学 蛋白质功能位点 序列保守性 机器学习方法 ROC分析
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:Q51;O242.1
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 第一章 绪论9-13
  • 1.1 研究背景9-10
  • 1.2 蛋白质序列、结构和功能10-12
  • 1.3 本文的主要工作12-13
  • 第二章 利用序列保守性预测酶催化位点13-47
  • 2.1 研究背景13-24
  • 2.1.1 基于符号频率和替代得分的度量14-16
  • 2.1.2 基于熵的概念的度量16-17
  • 2.1.3 考虑到氨基酸物理化学性质的度量17-20
  • 2.1.4 其它的得分度量20-24
  • 2.2 物理化学性质散度描述及应用24-29
  • 2.2.1 数据集24
  • 2.2.2 物理化学性质散度方法介绍24-25
  • 2.2.3 评价方法25-26
  • 2.2.4 结果与讨论26-29
  • 2.3 氨基酸背景频率在保守性度量中的应用29-35
  • 2.3.1 数据集29
  • 2.3.2 方法介绍29-31
  • 2.3.3 评价方法31
  • 2.3.4 结果与讨论31-35
  • 2.4 考虑背景的物理化学性质方法35-44
  • 2.4.1 数据集35-36
  • 2.4.2 方法介绍36-37
  • 2.4.3 评价方法37
  • 2.4.4 结果与讨论37-44
  • 2.5 本章小结44-47
  • 第三章 机器学习方法在催化位点预测中的应用47-77
  • 3.1 研究背景47-51
  • 3.1.1 L1-logreg分类器48-49
  • 3.1.2 支持向量机49-51
  • 3.2 一种基于L1-logred分类器的催化位点预测方法51-62
  • 3.2.1 数据集52
  • 3.2.2 方法介绍52-55
  • 3.2.3 结果与讨论55-62
  • 3.3 序列保守性在基于机器学习的方法中的作用62-76
  • 3.3.1 数据集62-63
  • 3.3.2 方法介绍63-65
  • 3.3.3 结果与讨论65-76
  • 3.4 本章小结76-77
  • 第四章 序列特异的ROC分析使用策略77-88
  • 4.1 研究背景77-79
  • 4.1.1 ROC曲线77-78
  • 4.1.2 ROC分析在评价催化位点预测方法中的应用78-79
  • 4.2 序列特异的ROC分析评价策略79-87
  • 4.2.1 方法介绍79-80
  • 4.2.2 结果与分析80-87
  • 4.3 本章小结87-88
  • 结论88-89
  • 参考文献89-98
  • 攻读博士学位期间发表学术论文情况98-100
  • 致谢100-101
  • 作者简介101-103

【参考文献】
中国期刊全文数据库 前1条
1 许进,张雷;DNA计算机原理、进展及难点(Ⅰ):生物计算系统及其在图论中的应用[J];计算机学报;2003年01期
中国博士学位论文全文数据库 前2条
1 张拓;两种特殊类型蛋白质功能残基的预测与生物序列比对[D];南开大学;2009年
2 刘太岗;机器学习方法在生物信息学中的应用[D];大连理工大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
2 王建平;柴立和;;蛋白质分子网络的分形结构[J];安徽农业科学;2007年06期
3 王勇;陈克平;姚勤;;系统发生分析软件PAUP和TreePuzzle使用方法介绍[J];安徽农业科学;2008年02期
4 王勇;陈克平;姚勤;;系统发生分析程序MrBayes 3.1使用方法介绍[J];安徽农业科学;2009年33期
5 蔡渡江;王联结;;基于电子效应的氨基酸分类与二级结构的倾向性分析[J];安徽农业科学;2010年36期
6 付明哲;王联结;刘选治;;α-螺旋中2,3位氨基酸残基对螺旋结构稳定性的影响[J];安徽农业大学学报;2011年06期
7 钟尚平;林静;;一个基于TSVM的GIF图像通用隐写检测方法[J];北京交通大学学报;2009年02期
8 王雯雯;武栓虎;;基于DNA双链特征的启动子预测方法[J];北京交通大学学报;2009年06期
9 秦洋;王立宏;武栓虎;宋宜斌;;基于拉普拉斯矩阵的DNA序列集相似性分析[J];北京交通大学学报;2009年06期
10 冯梦蝶;张林;柴惠;;生物基因与蛋白质序列比对算法的图形硬件加速研究[J];浙江中医药大学学报;2012年04期
中国重要会议论文全文数据库 前10条
1 胡扬;桂卫华;;人工代谢技术在医药领域中的应用研究[A];第二十九届中国控制会议论文集[C];2010年
2 庄绪静;曹雅忠;李克斌;尹姣;;同源建模和分子对接方法的应用与发展[A];植保科技创新与病虫防控专业化——中国植物保护学会2011年学术年会论文集[C];2011年
3 蒋全胜;贾民平;胡建中;许飞云;;一种基于流形学习的故障模式识别方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
4 徐云峰;;一种新的取证计算模型的研究与实现[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
5 王雷;蒋爱平;;基于DNA编码的遗传神经网络算法及应用[A];第十九届测控、计量、仪器仪表学术年会(MCMI'2009)论文集[C];2009年
6 秦朗;;基于二叉树多层分类SVM的脱机手写体汉字识别[A];第十九届测控、计量、仪器仪表学术年会(MCMI'2009)论文集[C];2009年
7 杨春德;魏国辉;任静静;杨孝田;;DNA计算机中二叉树的层次遍历算法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
8 方昕;钟尚平;;基于聚类与TSVM融合的图像通用隐写检测算法[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
9 张国文;陈秀霞;;牛蒡苷与人血清白蛋白的相互作用[A];2009年中国农业工程学会农产品加工及贮藏工程分会学术年会论文集[C];2009年
10 王天芳;袁世宏;;证候/证候要素研究的分类假说与方法[A];中国中西医结合学会诊断专业委员会2009’年会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 王冰;降解丝素放线菌的分离鉴定、发酵条件优化及其降解机制研究[D];山东农业大学;2009年
2 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
3 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
4 陈霄;DNA遗传算法及应用研究[D];浙江大学;2010年
5 杨国鹏;基于机器学习方法的高光谱影像分类研究[D];解放军信息工程大学;2010年
6 徐兆华;基因芯片数据统合分析方法的若干拓展[D];浙江大学;2010年
7 程敬丽;源自内生真菌的倍半萜类新颖高效抑菌化合物的衍生合成与生物活性研究[D];浙江大学;2010年
8 皋军;智能识别中的降维新方法及其应用研究[D];江南大学;2010年
9 包梅荣;油茶种子成熟调控蛋白基因的分离克隆及功能研究[D];中南林业科技大学;2010年
10 陈欣;蛋白质在不同界面的识别、吸附及稳定性研究[D];浙江大学;2009年
中国硕士学位论文全文数据库 前10条
1 马冉冉;集成学习算法研究[D];山东科技大学;2010年
2 张艳萍;蛋白质序列的数学描述及其应用[D];浙江理工大学;2010年
3 徐杰;生物信息学在家蚕中用应用及Ras相关CTP结合蛋白C(BmRGPC的表达研究)[D];浙江理工大学;2010年
4 张杰;基于支持向量机和蛋白质全序列的蛋白质—蛋白质相互作用预测[D];郑州大学;2010年
5 张伟;分子光谱法研究蛋白质与小分子的相互作用及其分析方法研究[D];郑州大学;2010年
6 左国辉;基于子空间方法的人脸识别技术研究[D];哈尔滨工程大学;2009年
7 吕俊杰;真核基因剪接位点识别算法研究[D];哈尔滨工程大学;2010年
8 杨欣颖;潜器光视觉目标识别技术的研究与设计[D];哈尔滨工程大学;2010年
9 史舵;基于主成分分析方法的蛋白质亚细胞定位[D];大连理工大学;2010年
10 兰任;基于并行混合粒子群算法的蛋白质结构预测[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前6条
1 殷志祥,张凤月,许进;0-1规划问题的DNA计算[J];电子与信息学报;2003年01期
2 许进,张雷;DNA计算机原理、进展及难点(Ⅰ):生物计算系统及其在图论中的应用[J];计算机学报;2003年01期
3 张春霆;生物信息学的现状与展望[J];世界科技研究与发展;2000年06期
4 李婷婷;蒋博;汪小我;张学工;;转录因子结合位点的计算分析方法[J];生物物理学报;2008年05期
5 姜勇,涂晓明,施蕴渝;转录因子E2F在细胞周期调控中的重要作用[J];细胞生物学杂志;2000年01期
6 刘文斌,许进;赋权Hamilton路的DNA计算模型[J];系统工程与电子技术;2002年06期
中国重要会议论文全文数据库 前1条
1 许进;;DNA分子生物计算机与运筹学发展的新机遇[A];中国运筹学会第六届学术交流会论文集(上卷)[C];2000年
【相似文献】
中国期刊全文数据库 前10条
1 李伍举,吴加金;蛋白质功能位点预测[J];生物化学与生物物理进展;1993年01期
2 廖小燕,黄菁;基因结构预测[J];自然杂志;2001年05期
3 符稳群;林莹;黄惠玲;张云珊;池华;杨晓琦;张敏敏;张振华;;水稻组蛋白脱乙酰化酶HD2 HDACs蛋白质的生物信息学分析[J];漳州师范学院学报(自然科学版);2009年04期
4 符稳群;纪春艳;杨晓琦;张敏敏;张振华;;稻瘟病菌组蛋白脱乙酰化酶SIR2 HDACs的功能初探[J];热带亚热带植物学报;2009年04期
5 郭莹莹;王靖飞;;A型流感病毒NS1蛋白结构研究进展[J];生命科学;2010年02期
6 王晓光;侯勇跃;唐青;;狂犬病病毒分子生物学研究进展[J];畜牧与饲料科学;2008年02期
7 程鹏;黄志刚;洪亚辉;刘霞;萧浪涛;王若仲;;植物激素相关核酸和蛋白质二级数据库的构建与应用[J];植物学报;2010年02期
8 钟天映;毕利军;张先恩;;错配修复蛋白MutS的新功能位点[J];中国科学:生命科学;2011年02期
9 谭小丹,卢智勇,苏永春,董爱荣,邓亲恺;蛋白质中变构通讯结构基础的方法分析与实现[J];第一军医大学学报;2005年06期
10 宋得华;潘华奇;黎应胜;杨宇泽;;鸭瘟病毒TK基因及其编码蛋白的生物信息学分析[J];安徽农业科学;2007年31期
中国重要会议论文全文数据库 前10条
1 王云霞;;α干扰素镇痛功能位点研究[A];中国生理学会张锡钧基金会第八届全国青年优秀生理学学术论文综合摘要[C];2003年
2 常珊;李春华;龚新奇;陈慰祖;王存新;;蛋白质不同区域的氨基酸保守性网络分析[A];第十次中国生物物理学术大会论文摘要集[C];2006年
3 王靖;李霞;高磊;朱明珠;杨德武;;蛋白质功能位点和结构域与人类蛋白质互作关联分析[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
4 龚薇;李媛;黄刚;晁帆;何凤田;;人高迁移率族蛋白B1抗菌相关功能位点解析[A];第九届西南三省一市生物化学与分子生物学学术交流会论文集[C];2008年
5 邹传新;李洪林;;基于序列的蛋白质-DNA相互作用分析与机器学习预测[A];中国化学会第28届学术年会第14分会场摘要集[C];2012年
6 杨长平;;生物信息学在畜禽基因组研究中的应用[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
7 陈德富;陈喜文;刘佳;杨鹏;;利用“致死点突变筛选”策略研究AtGSTZ功能位点[A];中国遗传学会第八次代表大会暨学术讨论会论文摘要汇编(2004-2008)[C];2008年
8 郑永良;李平;陈舒丽;刘德立;;生物信息学在环境微生物研究中的应用[A];湖北省生物工程学会2004年年会学术报告及论文摘要汇编[C];2004年
9 李亮;朱庆;;家鸡核糖体蛋白基因RPS13的电子克隆及鉴定[A];中国家禽业——机遇与挑战——第十三次全国家禽学术讨论会论文集[C];2007年
10 邱熔芳;高贵敏;郭辰虹;龚瑶琴;刘奇迹;;0RMDL3基因与汉族人群哮喘的相关性研究[A];第八次全国医学遗传学学术会议(中华医学会2009年医学遗传学年会)论文摘要汇编[C];2009年
中国重要报纸全文数据库 前10条
1 本报记者 李恩青;生物信息学:促动BT与IT双赢[N];中国高新技术产业导报;2001年
2 刘义;生物信息学产业浮出水面[N];中国高新技术产业导报;2000年
3 中科院院士 强伯勤;生物信息学蕴有巨大效益[N];光明日报;2002年
4 白毅;加强生物信息学建设推动人类基因组研究[N];中国医药报;2002年
5 英潮;生物信息学演绎“变脸”[N];中药报;2002年
6 周颖;李梢:生物信息学为证候研究提供新视角[N];中国中医药报;2006年
7 严飞;生物信息学 新世纪的新科学[N];大众科技报;2002年
8 中国科学院院士 张春霆 郝柏林;生物信息学孕育大产业[N];经济日报;2000年
9 张亚东;“交点”上的舞蹈[N];计算机世界;2002年
10 记者 刘腾;基因研究又遇难题[N];中华工商时报;2000年
中国博士学位论文全文数据库 前10条
1 窦永超;预测蛋白质功能位点的几种新数学模型[D];大连理工大学;2011年
2 徐德斌;脂多糖结合蛋白功能位点分析及其抑制性多肽的筛选[D];第三军医大学;2004年
3 薛丹;G蛋白偶联受体功能位点与功能性SNPs的预测[D];上海大学;2008年
4 龚薇;HMGB1酸性尾端抗菌相关功能位点解析及以该分子为靶点的抗炎措施研究[D];第三军医大学;2009年
5 王云霞;α干扰素阿片样作用的分子机制[D];第二军医大学;2002年
6 蔡晓辉;基于结构生物信息学的蛋白质设计[D];中国科学院研究生院(上海生命科学研究院);2006年
7 范彩云;马多巴胺D4受体基因克隆、序列分析和多态性研究[D];内蒙古农业大学;2007年
8 马闯;基因及相关功能元件的生物信息学预测[D];华中科技大学;2009年
9 陈丹;AHR和PPAR-γ基因多态性与肿瘤遗传易感性研究[D];复旦大学;2009年
10 张敏;生物信息学中多序列比对等算法的研究[D];大连理工大学;2005年
中国硕士学位论文全文数据库 前10条
1 李金良;基于序列组分与位点特征的基因功能位点识别[D];湖南农业大学;2012年
2 吴琴琴;基于DNA序列的功能位点识别[D];苏州大学;2010年
3 阳帅;鼻咽癌相关新基因NPCEDRG抑瘤功能初步研究[D];南华大学;2008年
4 宋美霖;基于结构序列模块分析的(β-α)_8蛋白质的同源性研究[D];中国科学技术大学;2011年
5 蒋俊豪;诱导STGC3基因定点突变对其功能影响的初步研究[D];南华大学;2008年
6 刘鹏;一个ZM401基因家族新成员(ZM908)的克隆及其功能研究[D];中国农业大学;2005年
7 张景祥;关于生物信息学的几个问题[D];江南大学;2008年
8 尚璇;H5N1亚型禽流感防疫中应用生物信息学研究免疫方案的探讨[D];华中科技大学;2007年
9 于丹;RNA二级结构预测算法分析与比较[D];吉林大学;2009年
10 郭雅宾;寡核苷酸芯片探针设计的方法设计与在线应用系统构建[D];清华大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026