收藏本站
《山东大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

原核生物中调节子的研究和预测

马勤  
【摘要】:生物信息学是一门融合了了计算机、数学、物理等各个领域知识的新兴的、非常重要的交叉学科。生物信息学在近十几年的飞速发展极大地推动了生物学的研究,同时也给其它相关领域提供了一系列富有挑战性的的问题。本文主要研究的问题是如何利用组合算法来研究和预测原核生物中的调节子。 转录既是DNA翻译成蛋白质的关键一步,同时也是调控基因表达的关键阶段。原核生物中的基本转录单元是操纵子,被同一个转录因子调控的操纵子的集合称为调节子。我们要想搞清楚原核生物细胞中的整体转录调控机制,就十分有必要对调节子进行深入的研究。一个调节子只有在特定的实验条件下才能在实验中被发现,通过遍历实验条件的方法来确定调节子是不现实的。因此在本文中我们提出了一个基于组合优化的计算方法,力求透彻的研究并完整的预测原核生物中的调节子。这个算法的成功执行要依赖于以下的三个方面的准备工作:第一,调控模体的准确预测;第二,分析基因表达数据的双聚类方法;第三,物种间直系同源基因的准确预测。这三个方面的进展都会从根本上推动调节子的研究。 在这篇论文中,我们首先介绍了一个全新的模体预测软件:BOBRO。它可以对任意给定的启动子序列集合来预测转录调控模体,极大地改进了模体预测问题的整体性能并且扩展了软件的应用范围。其改进主要体现于如下两个方面:(1)设计了一个全新高效的模体信号挖掘组合算法,能够大大的加强相似模体之间的相互支持,并且运用寻找极大团的算法来构建初始的种子模体集合。(2)从种子集合出发,我们利用模体闭包的概念,扩展种子、优化模体集合并评价最终模体集合。在一系列大肠杆菌K12共调控数据上,我们比较了BOBRO和其他五个常用的模体预测软件的预测结果,实验结果证明与其他所有软件相比,BOBRO至少提高了42%的模体预测准确率。另一组实验结果表明,BOBRO在整个大肠杆菌K12基因组上成功预测了1472个已经通过生物实验证实了的转录调控模体,为最终调节子的确定打下了坚实的基础。 然后我们给出了一种基于组合优化算法的基因表达数据的双聚类分析软件:QUBIC。这个软件相对于目前已有的双聚类方法,能够在更加一般的情况下解决双聚类的问题。主要特征有:(1)能够准确的确定出所有具有统计意义的双聚类,也包含公认不好确定的缩放型的双聚类;(2)能够十分高效的处理大规模的基因表达数据。分析一个行和列都数以千计的基因表达矩阵只需要短短的几分钟时间。通过在人工模拟数据和真实的生物数据上的实验结果,我们看到了QUBIC相对于其它软件在双聚类的分析性能上有了大幅度的提高。 最后一个准备工作就是原核生物中同源基因的确定。我们对这个问题同样提出了一个组合算法:GOST,它相对于这个领域的其它方法的特点是:(1)在算法中整合了操纵子在进化过程中的保守性;(2)在两个基因组之间运用了 一个整体最优的准则来确定直系同源关系。GOST相对于我们选取的目前比较流行的三个软件,在预测结果的覆盖度和错误率两个方面都有很大程度的改进。进一步的我们关注GOST的预测结果与其他软件预测结果中不一致的直系同源关系,其中77%可以利用另外的三种生物相关的验证方法进行验证。值得一提的是我们的方法使用方便且十分高效,在两个全基因组之间确定所有的同源关系大约只需要10分钟的时间。 在调控模体和同源基因的准确预测的基础上,我们给出了一个预测调节子的组合算法:REGUP,试图确定一个原核生物基因组中编码的所有调节子。据我们所知,目前还没有任何一个软件能够在全基因组上大规模的预测调节子。进一步的我们利用大肠杆菌K12中已知的178个调节子和466个实验条件下的基因表达数据对算法进行了验证和调整。另外,文中所有提到的软件都会随着我们工作的进展逐渐的公布出来。
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:Q811.4

【共引文献】
中国期刊全文数据库 前10条
1 谢雪英,孙啸,陆祖宏;卡方检验确定背景序列模型Markov chain的阶数(英文)[J];Journal of Southeast University(English Edition);2003年04期
2 THOLEN Danny;;The next generation models for crops and agro-ecosystems[J];Science China(Information Sciences);2011年03期
3 王建新;杨德;黄元南;;DNA序列中弱信号基序查找算法比较与分析[J];计算机科学;2008年08期
4 刘文远;田陆芳;王常武;王宝文;;基于Gibbs采样与遗传算法的模体识别[J];计算机工程;2011年14期
5 李锦;钟诚;卿海军;;基于分群策略的机群系统上Motif发现并行算法[J];计算机工程与科学;2008年11期
6 Gloria Rendon;Mao-Feng Ger;Ruth Kantorovitz;Shreedhar Natarajan;Jeffrey Tilson;Eric Jakobsson;Ruth Kantorovitz;;Understanding the “Horizontal Dimension” of Molecular Evolution to Annotate, Classify, and Discover Proteins with Functional Domains[J];Journal of Computer Science & Technology;2010年01期
7 张斐;;一种基于贪心EM的改进预测算法[J];价值工程;2011年17期
8 高扬;罗辽复;;以信息关联和偏信息关联为工具标记基因组[J];内蒙古大学学报(自然科学版);2011年01期
9 孙旭春;陈晓林;赵胜利;;关于motif识别的一个更精确的混合模型(英文)[J];曲阜师范大学学报(自然科学版);2008年04期
10 孙向勇;吴建良;;特殊平面图的线性二荫度[J];山东师范大学学报(自然科学版);2007年03期
中国博士学位论文全文数据库 前9条
1 李艳文;信号Pathway预测方法研究[D];吉林大学;2011年
2 李冬冬;基因组序列标注的算法与理论研究[D];国防科学技术大学;2004年
3 杜耀华;基因组转录调控元件的特征分析与识别算法研究[D];国防科学技术大学;2006年
4 晏春;基因剪接的信号序列分析和相关特征研究[D];国防科学技术大学;2006年
5 熊赟;生物序列模式挖掘与聚类研究[D];复旦大学;2007年
6 张同亮;基于智能计算的蛋白质功能预测研究[D];东华大学;2008年
7 陈勇;全基因组中网络缺失基因和微型转座子的发现及研究[D];山东大学;2008年
8 刘丙强;原核生物中的转录调控模体预测研究[D];山东大学;2010年
9 杨磊;转录因子结合位点和动物毒素的分析与预测[D];内蒙古大学;2010年
中国硕士学位论文全文数据库 前10条
1 赵振华;模体发现问题的若干算法及应用研究[D];西安电子科技大学;2009年
2 胡慧泽;基于分步查找的高效复合模式查找算法[D];西安电子科技大学;2010年
3 戈鲁宁;基于吉布斯采样的模体识别算法研究[D];西安电子科技大学;2010年
4 詹海萍;弱信号模体检测的图搜索算法[D];西安电子科技大学;2010年
5 周敬;一种有效的SDA模体发现算法[D];西安电子科技大学;2009年
6 田夏云;平面图的线性荫度和线性2-荫度[D];山东大学;2011年
7 朱晓然;运用全局优化策略预测原核生物的直系同源基因[D];山东大学;2011年
8 王剑峰;Paenibacillus mucilaginosus KNP414全基因组测序及分析[D];浙江理工大学;2011年
9 何伟;使用随机投影技术发现生物序列特征的算法[D];郑州大学;2002年
10 张洪福;对PCR引物设计问题的研究[D];山东大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 王菲;罗恩杰;;CRISPR及其在原核生物防御系统中的作用[J];热带医学杂志;2008年10期
2 邢其华;;最古老的生物[J];生命世界;1981年02期
3 赵小平;生物的遗传重组[J];阴山学刊;1995年S2期
4 柯为;原核生物的DNA复制国际会议[J];中国生物工程杂志;1982年02期
5 时光;何旋;徐定冼;郭小丽;高正平;王惠弟;孙訚訚;;每期20题[J];生物学通报;1993年05期
6 阎章才;A因子在原核生物分化和次级代谢中的分子调控[J];微生物学报;2000年01期
7 关耳;;沸水微生物之中有祖先?[J];海洋世界;2003年08期
8 王晓云;;数字背后的隐忧[J];水利天地;2010年08期
9 ;《自然》:美提出生命进化新假说:两个原核生物造一个新生命[J];现代生物医学进展;2009年15期
10 刘燕明;;原核细胞型生物的现代分类[J];生物学通报;1993年11期
中国重要会议论文全文数据库 前10条
1 方呈祥;彭方;张珞珍;辛晓红;;遗传信息对原核生物物种界定的关键作用[A];基因开启未来:新时代的遗传学与科技进步——湖北省遗传学会第八次代表大会暨学术讨论会论文摘要汇编[C];2009年
2 禹胄;李涛;赵进东;罗静初;;原核生物基因组序列装配辅助系统[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
3 余振苏;朱怀球;;原核生物基因系统的统计模型及其应用[A];北京力学会第11届学术年会论文摘要集[C];2005年
4 叶姜瑜;王希;;原核生物透明质酸合酶(Hyaluronan Synthase)探询[A];重庆市遗传学会第一届学术年会暨纪念孟德尔规律再发现100周年学术讨论会论文集[C];2000年
5 李星学;;陆生植物的起源与裸蕨植物(摘要)[A];中国古生物学会山旺现场会议暨第二届第八次扩大理事会论文集[C];1978年
6 许志刚;;植物病原原核生物的分类现状[A];江苏省植物病理学会第九届会员代表大会暨学术研讨会论文集[C];1999年
7 王君;樊荣;朱小锐;;对SiRNA的全新认识和应用[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(下册)[C];2002年
8 张文;方伟武;唐焕文;蔡旭;;基于信息离散性度量方法的微生物全蛋白质组的系统发育分析[A];中国运筹学会第七届学术交流会论文集(中卷)[C];2004年
9 李越中;;高等原核生物-粘细菌及其细胞行为的进化与多样性[A];第二届中国青年学者微生物遗传学学术研讨会论文集[C];2006年
10 刘永初;朱怀球;;一种基于翻译调控信号的原核生物基因组比较方法[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 冯卫东;两个原核生物造一个新生命[N];科技日报;2009年
2 刘霞;海底动物稀少之谜获解[N];科技日报;2008年
3 新华社;日专家发现“中间型”微生物[N];光明日报;2006年
4 泓天威技术服务部;加利健[N];中国畜牧水产报;2001年
5 ;蜜蜂螺原体病的防治[N];中国畜牧兽医报;2006年
6 郑新城;养殖贝类大规模死亡原因及防治措施[N];中国渔业报;2007年
7 李济 供稿;理科综合能力测试模拟(三)[N];山西科技报;2003年
8 汪品先;我国地球系统科学向何处去[N];文汇报;2006年
9 本报记者 华凌;科学不应成为个人赚钱的工具[N];科技日报;2009年
10 本报首席记者 任荃;也许时间将为人造生命洗去忧虑[N];文汇报;2010年
中国博士学位论文全文数据库 前10条
1 陈一然;潮间带多细胞趋磁原核生物的显微分离、鉴定及系统进化研究[D];中国科学院研究生院(海洋研究所);2014年
2 马勤;原核生物中调节子的研究和预测[D];山东大学;2010年
3 廖晓兰;几种植物病原原核生物实时荧光PCR检测方法的研究[D];湖南农业大学;2003年
4 刘丙强;原核生物中的转录调控模体预测研究[D];山东大学;2010年
5 李凤敏;核蛋白的亚核定位和植物、非植物及小鼠蛋白质的亚细胞定位预测研究[D];内蒙古大学;2007年
6 郭文久;微卫星在基因组上的分布与功能及其计算方法初步研究[D];四川农业大学;2004年
7 周立前;基因识别算法研究与基因组进化分析[D];湘潭大学;2008年
8 雷呈祥;与自身免疫性溶血性贫血相关基因的克隆及在原核生物中的表达[D];复旦大学;2003年
9 吕鸿雁;枯草芽孢杆菌中甲硫氨酸氨基肽酶基因的克隆与功能研究[D];中国协和医科大学;2002年
10 唐先兵;肠球菌肽脱甲酰基酶pdf基因的克隆、分离与酶活性研究及以PDF为靶点的高通量新药筛选模型的建立与应用[D];中国协和医科大学;2004年
中国硕士学位论文全文数据库 前10条
1 韦芳萍;原核生物中重复序列的分析及数据库的构建[D];广西大学;2002年
2 胡元森;海藻糖-6-磷酸合成酶基因在原核生物中的表达及其功能研究[D];河南农业大学;2002年
3 龚勋;粘细菌mRNA差异表达法研究及耐盐粘球菌HW-1的mRNA差异表达分析[D];山东大学;2005年
4 卫海滨;组份距离方法构建基于两组蛋白质的原核生物亲缘树[D];浙江大学;2004年
5 刘晓磊;原核生物基因组复制起始点的识别与结构分析[D];河北工业大学;2007年
6 初春;基于信息论的原核生物翻译初始阶段的编码特性研究[D];重庆大学;2008年
7 杨益芬;四川大英盐湖原核生物多样性初步研究[D];四川农业大学;2009年
8 任晓凯;基于序列特征的非编码RNA基因预测[D];吉林大学;2008年
9 章芬;原核生物基因组寡核苷酸转移概率偏倚的物种特异性及致病关联性[D];华南理工大学;2012年
10 林中宝;水稻OsbolA1基因克隆与表达研究[D];华中农业大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026