收藏本站
收藏 | 论文排版

基于Hadoop的同源性搜索GO功能注释平台的研究

吴浩宇  
【摘要】:随着第二代基因测序技术的广泛使用,基因测序速度得到了很大地提升。随之产生了海量的生物数据,这些数据需要通过分析、整理和注释之后才能使其具有生物学含义。目前,已经有大量的生物信息数据库用来高效地存储和管理这些庞大的信息。利用这些已经注释过的生物学数据来对新的数据进行注释,已成为生物信息学的一个重要领域。基因本体论GO,构建了一个跨物种的注释词汇库,从而精确定义了基因的功能及功能间的关系,在注释中得到了广泛的使用。 同时,面对海量生物学数据,如何快速有效地实现它们的并行化处理,也成为了学术界研究的一个热点。目前,对于并行计算的处理框架有很多种,而Google公司提出的云计算概念和MapReduce并行框架以其可高扩展和高易用性,在大数据处理中得到了广泛的应用。Hadoop作为开源的云计算平台,实现了Google云计算的功能,被研究者们广泛使用。本文在结合生物信息学以及云计算技术的基础上,提出并设计了基于Hadoop的同源性搜索GO功能注释平台,为基因数据的研究提供了便利。 本文的研究工作主要如下: (1)研究了基因本体的相关理论基础,以及GO本体论在生物信息学尤其是基因功能注释中所得到的应用。分析了目前已有的基因数据的注释手段,以及基于同源性序列相似度的功能注释所具备的理论基础。 (2)研究了基于序列相似度比对的基因功能注释的流程。研究了打分矩阵和序列比对算法在发现同源性序列的过程中所起的作用。研究并实现了点矩阵、Needleman-Wunsch、Smith-Waterman等序列比对算法,并测试比较了它们的性能。 (3)创新性地提出了基于Hadoop的基因功能注释平台的体系架构。通过整合GO数据库以及其他生物数据库,设计了本地基因注释的数据中心,并设计了用于功能注释的概念模型,用来实现本体与注释信息的关联通路。 (4)分析了蛋白质数据库搜索算法BLASTP的算法理论,比较算法各个阶段所占的运行时间。结合Hadoop的MapReduce并行处理框架,以及在基因注释中比对算法的需求,设计了并行的蛋白质比对算法CGABlastP,通过实验证明其从本质上提高了基因注释的速度,适应了生物序列指数级增长的需求。


知网文化
【相似文献】
中国重要会议论文全文数据库 前2条
1 周国鑫;王霞;娄永根;程家安;;水稻诱导抗虫反应的分子基础[A];中国生态学会2006学术年会论文荟萃[C];2006年
2 葛秀秀;刘克锋;陈洪伟;;一串红的转录组测序与分析[A];2013全国植物生物学大会论文集[C];2013年
中国硕士学位论文全文数据库 前5条
1 方婷;家蚕特有基因的鉴定、表达模式分析及功能初探[D];西南大学;2010年
2 许三岗;疟原虫分子功能注释二级数据库的构建[D];北京协和医学院;2013年
3 吴浩宇;基于Hadoop的同源性搜索GO功能注释平台的研究[D];南京农业大学;2013年
4 叶非;基于集群环境的三种蛋白质GO功能注释方法的实现[D];华中科技大学;2008年
5 梁远学;椰肉发育过程中差异表达基因的分离和功能注释[D];海南大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978