收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

生物信息学中的多序列比对与模体识别问题研究

刘立芳  
【摘要】: 基因组计划的实施,使序列数据激增,序列分析成为生物信息学的首要任务。序列比对与序列模体(motif)识别是进行生物序列分析的两个主要方法。 本论文主要针对多序列比对问题和模体识别问题进行了方法上的研究。本文的主要工作和创新点如下: 1、针对生物序列分析中的多序列比对问题,设计了求解多序列比对问题的混合遗传算法。首先采用SP记分函数作为个体的适应度函数,设计了4种遗传算子,对BAliBASE中Ref.1进行了测试,其结果表明该算法对等距蛋白质序列比对是有效的,其中部分比对结果优于ClustalX。 2、为了进一步提高算法求解问题的范围及求解的精度,算法改用COFFEE函数作为个体的适应度函数,与之相应的软件称为PHGA-COFFEE,构造了6种遗传算子,特别是设计了2种新颖的变异算子,其中一种变异算子基于COFFEE的一致性信息设计,以改善算法的整体搜索能力;另一种变异算子基于动态规划方法设计,以增强其局部搜索能力。最后,通过对BAliBASE中144个测试例的测试,证明PHGA-COFFEE是有效的,与已有的算法相比,该算法对处于朦胧区和具有N/C末端延伸的序列比对问题有更强的问题求解能力。同时通过对算法并行化,其运行时间显著缩短。 3、针对多序列比对中的Profile HMM的参数优化问题,提出了遗传算法与Baum-Welch(BW)算法相结合的混合遗传算法。通过实验分析,证明经过混合遗传算法的训练而得到的Profile HMM能更好地描述多序列比对,从而得到更加准确的比对结果。 4、针对生物序列模体的识别问题,提出了一个新的混合Gibbs抽样识别算法。算法基于混合模体模型学习,采用贪心策略,通过似然度最大化,逐次将新的模体加入到混合模型中。算法中设计了位点抽样和模体抽样两种抽样方法,这两种抽样方法交替进行。为了加速搜索过程,对输入数据集采用了基于kd-trees的分层划分策略。实验结果表明,该算法对序列家族大量模体特征的识别具有显著优势,并且可建立更具统计特征的模体模型,从而提高序列分类的准确性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杜世平;隐马尔可夫模型在生物信息学中的应用[J];大学数学;2004年05期
2 文凤春;金人超;肖枝洪;;训练隐马尔可夫模型的BW-GA方法[J];计算机工程与应用;2010年17期
3 张永;王瑞;;生物信息学中的序列比对算法[J];电脑知识与技术;2008年01期
4 曾志平,王勇献,凌君,刘昆;蛋白质二级结构预测中的HMM及I/O HMM方法研究[J];电脑与信息技术;2002年05期
5 邹权;郭茂祖;韩英鹏;李文滨;;多序列比对算法的研究进展[J];生物信息学;2010年04期
6 李婷婷;蒋博;汪小我;张学工;;转录因子结合位点的计算分析方法[J];生物物理学报;2008年05期
7 王占昌,张敏,迟忠先;一个新的多序列比对算法(英文)[J];生物数学学报;2005年03期
8 刘超;马志强;刘帅;;生物信息学中的双序列比对算法[J];长春工程学院学报(自然科学版);2006年03期
9 郭雨珍;冯恩民;;蛋白质结构研究现状与展望[J];生物信息学;2007年04期
10 唐四薪;尹军;刘艳波;;串匹配算法在生物信息学中的应用[J];中国科教创新导刊;2007年21期
11 施卫萍;;生物信息学研究进展[J];安徽农学通报(下半月刊);2009年10期
12 罗泽举;宋丽红;;隐马尔可夫模型的多序列比对研究[J];计算机工程与应用;2010年07期
13 顾坚磊;周雁;;中国基因组生物信息学回顾与展望[J];中国科学(C辑:生命科学);2008年10期
14 陈念;赖小平;;肽类毒素生物信息学[J];生物学通报;2010年03期
15 吴晓明,宋长新,王波,程敬之;隐马尔可夫模型用于蛋白质序列分析[J];生物医学工程学杂志;2002年03期
16 吕品一;郑珩;劳兴珍;;蛋白质共进化分析研究进展[J];生物信息学;2010年01期
17 李治;;生物大分子的序列预测研究进展与展望[J];中北大学学报(自然科学版);2007年S1期
18 吴旻;发展基因组学和生物信息学刻不容缓[J];中国科技月报;1999年12期
19 刘晓,施锐,张士璀,戴桂林;生物信息学与生物经济[J];生物学杂志;2004年04期
20 郑伟国,郭英,常春艳;生物信息学的现状与未来[J];口岸卫生控制;2004年05期
中国重要会议论文全文数据库 前10条
1 冯文龙;赵清杰;;基于遗传算法的DNA多序列比对问题[A];2007年中国智能自动化会议论文集[C];2007年
2 康晓东;;生物信息学及其研究对象[A];2003年全国医学影像技术学术会议论文汇编[C];2003年
3 符稳群;;稻瘟病菌组蛋白脱乙酰化酶RPD3/HDA1家族成员的生物信息学分析[A];中国植物病理学会2008年学术年会论文集[C];2008年
4 李媛;崔尚金;李建伟;于康震;;分子生态学与生物信息学[A];中国畜牧兽医学会禽病学分会第十一次学术研讨会论文集[C];2002年
5 陆文聪;钮冰;;基于数据挖掘的生物信息学研究进展[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
6 陈婷婷;郭婷婷;李林;安冬;;基于生物信息学的功能蛋白基因序列分类研究[A];2011年全国通信安全学术会议论文集[C];2011年
7 卢学春;杨波;朱宏丽;姚善谦;;采用生物信息学方法优化依硫磷酸联合方案治疗MDS的应用研究[A];中国科协海峡两岸学术研讨会——2008血液肿瘤论坛会议会编[C];2008年
8 阮林;何颖;邹泽红;傅意玲;陈惠芳;陶爱林;;外源蛋白过敏原性生物信息学评价[A];中华医学会2010年全国变态反应学术会议暨中欧变态反应高峰论坛参会指南/论文汇编[C];2010年
9 王智宇;童强松;曾甫清;刘媛;顾朝辉;郑丽端;蔡嘉斌;蒋国松;;小鼠睾丸特异性基因TSEG-4的克隆及表达分析[A];第十五届全国泌尿外科学术会议论文集[C];2008年
10 朱云平;刘湘军;魏丽萍;李亦学;;肝脏蛋白质组的生物信息学研究[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
中国博士学位论文全文数据库 前10条
1 刘立芳;生物信息学中的多序列比对与模体识别问题研究[D];西安电子科技大学;2006年
2 张敏;生物信息学中多序列比对等算法的研究[D];大连理工大学;2005年
3 唐玉荣;生物信息学中的序列比对算法研究[D];中国农业大学;2004年
4 曾智勇;猪呼肠孤病毒SC-A株的分离鉴定及全基因组cDNA文库的构建和分子遗传特征分析[D];四川农业大学;2006年
5 肖庆;硬粒小麦硒蛋白的生物信息学研究[D];华中科技大学;2008年
6 张革新;α-淀粉酶性能与结构关系的生物信息学研究[D];江南大学;2005年
7 李艳芸;HLA-DRB1基因编码区SNPs的分析及其与宫颈癌的相关性研究[D];天津医科大学;2006年
8 童庆;面向基因预测的信息处理方法研究[D];中国科学技术大学;2006年
9 郭雨珍;蛋白质结构预测和比较的优化研究[D];大连理工大学;2007年
10 熊赟;生物序列模式挖掘与聚类研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 胡永钢;序列联配的算法比较与机器学习在其中的应用研究[D];江南大学;2005年
2 方义;基于A-Star和DiAlign算法的多序列比对[D];西安电子科技大学;2007年
3 刘帅;基于自适应免疫遗传算法的多序列比对方法研究[D];东北师范大学;2007年
4 张忆;基于遗传退火的生物信息学多序列比对算法研究[D];电子科技大学;2009年
5 司徒浩臻;基于遗传算法的多序列比对算法研究[D];暨南大学;2006年
6 王璐;基于智能优化与隐马尔可夫模型的多序列比对算法研究[D];吉林大学;2006年
7 邱爽;多序列比对算法研究[D];吉林大学;2007年
8 蔡亮;基于HMM和ANN的基因识别方法[D];成都理工大学;2008年
9 吕艳萍;生物序列比对问题的研究[D];福州大学;2005年
10 管乃洋;非编码RNA基因识别模型的设计与实现[D];国防科学技术大学;2006年
中国重要报纸全文数据库 前10条
1 本报记者 李恩青;生物信息学:促动BT与IT双赢[N];中国高新技术产业导报;2001年
2 刘义;生物信息学产业浮出水面[N];中国高新技术产业导报;2000年
3 英潮;生物信息学演绎“变脸”[N];中药报;2002年
4 中科院院士 强伯勤;生物信息学蕴有巨大效益[N];光明日报;2002年
5 白毅;加强生物信息学建设推动人类基因组研究[N];中国医药报;2002年
6 周颖;李梢:生物信息学为证候研究提供新视角[N];中国中医药报;2006年
7 中国科学院院士 张春霆 郝柏林;生物信息学孕育大产业[N];经济日报;2000年
8 刘丽丽;高性能计算为生物信息学加速[N];计算机世界;2007年
9 严飞;生物信息学 新世纪的新科学[N];大众科技报;2002年
10 张亚东;“交点”上的舞蹈[N];计算机世界;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978