收藏本站
《中国科学技术大学》 2014年
收藏 | 手机打开
二维码
手机客户端打开本文

大规模生物序列分析的高性能算法和模型

杨矫云  
【摘要】:随着测序技术的发展,生物序列的规模呈现爆炸性增长,目前生物信息学中的计算方法与技术如何应对快速增长的序列数据,已成为当前生物信息学迫切需要解决的问题。为了适应大规模生物序列数据的分析和计算,本文主要从三个层面研究了数据组织、算法设计和并行化加速。数据组织就是建立数据表示和组织的模型,模型能尽量给出全局信息以及有利于分析和计算的效率提高;算法设计就是给出适应大规模数据处理的高效算法,算法具有低时间复杂度或尽可能短的时间内输出好的解(即尽快求解算法);并行化加速是实际大规模数据处理必须考虑的手段,着重要解决算法的并行化与有效的负载平衡。 本文选取生物信息学中单体分型、模体发现和最长公共子序列三个重要的生物序列分析问题,来探究大规模生物序列数据处理中的关键技术和方法。本文的主要工作有: (1)单体分型问题:单体型是单条染色体上特异位点组成的序列,与人类疾病密切相关。生物实验测序通常得到两条单体型合并而成的基因型,因此需要将基因型分型成单体型。本文研究群体数据集的单体分型问题,首先建立了网络流模型,并在该模型上对已有的分型规则进行分析和综合,归纳出新的启发式知识,进而设计了新的单体分型算法FNphasing。在大规模数据集上,计算实验表明FNphasing算法的时间性能显著优于已有的算法,且精度也达到了目前最优。 (2)模体发现问题:模体是生物序列中一些重复出现、保守的区域,通常具有重要的生物功能,通过发现模体可以帮助了解生命机体的原理和特征。本文研究(l,d)模体发现问题,首先采用新哈希策略来减少存储的潜在模体数目,进一步设计了新的剪枝策略,降低了算法的平均时间复杂度。在挑战性实例的求解上,计算实验表明新算法CVoting的时间性能比已有算法降低一个数量级,且空间消耗更少。 (3)最长公共子序列问题:寻找序列间的最长公共子序列是序列相似性鉴定的一种重要手段,序列间的相似性可以作为物种共同起源的证据。本文研究多序列最长公共子序列(MLCS)问题,首先将该问题转化为图搜索,然后采用迭代最佳优先搜索策略设计了尽快求解算法Pro-MLCS,计算实验表明Pro-MLCS算法一般在总运行时间的前3%时间内即可输出最优解。在Pro-MLCS算法的基础上,进一步设计了空间增长缓慢的SA-MLCS算法和空间受限的SLA-MLCS算法。SA-MLCS算法采用迭代beam加宽的搜索策略,使得其找到与Pro-MLCS算法相同解所消耗的空间要少得多;而SLA-MLCS算法采用替换策略,使得其在SA-MLCS算法达到空间限制后能够继续搜索更好的解,进一步提高了可解问题规模。计算实验表明,在给定的空间限制内,SA-MLCS算法与SLA-MLCS算法能够处理的数据规模比Pro-MLCS算法高一个数量级。最后设计了Pro-MLCS算法的并行化版本:DPro-MLCS和DSDPro-MLCS,前者适用于分布式环境,后者适用于分布式-共享分层存储的集群环境。计算实验反映,二者均能达到了线性加速,且具有良好的尽快求解性能。 本文所研究的大规模生物序列数据处理中的关键技术和方法,其主要创新之处如下: (1)数据组织:贡献在于全局表示模型的建立。对于单体型问题,本文构建了单体分型全局视图的网络流模型,该模型包含了原始数据的全局信息,使得单体分型的可行解与模型上的流存在一一对应关系,更有利于设计高效的分型算法。对于模体发现问题,本文采用新的哈希策略,减少了存储的潜在模体数目,使得空间消耗大大降低,减少了空间对大规模数据处理的制约。对于最长公共子序列问题,本文将该问题的解空间组织为搜索图,并转化为在图中寻找最长路径问题,高效的图搜索算法可以在该问题上的得到应用。 (2)算法设计:贡献在于高效算法和尽快求解算法的设计。对于单体型问题,本文使用网络流模型的全局信息设计了高效的启发式搜索算法FNphasing,其在大规模数据处理的应用中,时间性能显著优于已有算法。对于模体发现问题,本文设计了新的剪枝算法减少哈希表的访问次数,使得新算法的平均时间复杂度达到目前最好。对于最长公共子序列问题,本文设计了尽快求解算法模式和空间受限的尽快求解算法模式。相比于已有的算法,尽快求解算法Pro-MLCS在求得相同解的情形下时间性能降低了一个数量级,而空间受限的尽快求解算法SLA-MLCS在相同的时间与空间限制下可求解问题规模提高了两个数量级。 (3)并行化:贡献在于尽快求解算法的并行化。本文针对新提出的尽快求解算法,设计了一种跨层并行化策略,使得不同层之间的并行处理成为可能,并利于实现负载均衡,新的并行算法达到了线性加速,且维持了尽快求解性能,能够充分利用大规模集群环境的计算资源,能够处理大规模数据。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:Q811.4;TP301.6

【参考文献】
中国期刊全文数据库 前1条
1 张强锋,车皓阳,陈国良,孙广中;最大节约原则下单倍型推导问题的实用算法(英文)[J];软件学报;2005年10期
【共引文献】
中国期刊全文数据库 前1条
1 张强锋;徐云;陈国良;车皓阳;;三元家庭基因数据的单体分型和单体型频率估计(英文)[J];软件学报;2007年09期
中国博士学位论文全文数据库 前2条
1 谢民主;单体型组装问题参数化建模及算法研究[D];中南大学;2008年
2 赵裕众;生物序列分析算法的研究及其应用[D];中国科学技术大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 刘伯强;一种复杂图形的处理和扫描技术[J];微细加工技术;2000年02期
2 王纪川;刘宇;齐勇;侯迪;;一种摄像机采集图像的二值化算法[J];计算机工程与应用;2007年30期
3 练在中;三维隐藏线消除法综述[J];计算机研究与发展;1987年10期
4 刘伯强,曹景森,胡咏梅;浓碱液测量过程中算法的探讨[J];基础自动化;1995年04期
5 杨正瓴;排序问题串行算法复杂性下界关系讨论[J];天津大学学报;1993年06期
6 刘伯强,刘忠国;张力同步系统微机控制算法的实现[J];机械与电子;2000年04期
7 孙杨模;;操作系统常见的几种算法举例分析[J];湖北三峡职业技术学院学报;2010年02期
8 杨锦宣;;重复数据统计算法及在商务网站中的应用[J];科技信息;2011年20期
9 马后永;张守川;靖旭;吴毅;;测量大气相干长度的数据处理算法比对研究[J];大气与环境光学学报;2010年06期
10 刘伯强;曹景森;;单片机控制系统中算法的处理和应用[J];电气自动化;1995年02期
中国重要会议论文全文数据库 前10条
1 谢丽聪;;SVB查询改写算法的改进[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 黄友锐;赵娜娜;;一种基于小波分析的焊缝识别算法[A];煤矿自动化与信息化——第20届全国煤矿自动化与信息化学术会议暨第2届中国煤矿信息化与自动化高层论坛论文集[C];2010年
3 李易;管庆;;基于DM642的智能视频监控系统[A];2008年中国西部青年通信学术会议论文集[C];2008年
4 张明慧;;基于模糊蒙片算法的CR图像边缘增强[A];第六届全国信息获取与处理学术会议论文集(1)[C];2008年
5 侯艳芳;冯红梅;;基于神经网络的调制识别算法的研究[A];武汉(南方九省)电工理论学会第22届学术年会、河南省电工技术学会年会论文集[C];2010年
6 程勇新;朱清新;;一种基于边折叠LOD技术的蒙皮动画算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
7 宁佐贵;;模糊控制算法的等价关系[A];中国工程物理研究院科技年报(1999)[C];1999年
8 刘田军;唐友喜;孙德福;;基于预修正ACE的OFDM系统峰平比抑制方法[A];2008年中国西部青年通信学术会议论文集[C];2008年
9 孙岚;刘雁春;陆秀平;欧阳永忠;李明叁;许家琨;;利用CUBE算法处理多波束测深数据研究[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
10 孙岚;刘雁春;陆秀平;欧阳永忠;李明叁;许家琨;;利用CUBE算法处理多波束测深数据研究[A];第二十一届海洋测绘综合性学术研讨会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 张韵萍苏小兰 李宾;对抗“震魔”的科技武器[N];中国经营报;2008年
2 赵艳秋李映;DSP核供应商灵活应对潜力应用[N];中国电子报;2007年
3 韩霁;高新技术在抗震救灾中得到应用[N];经济日报;2008年
4 李晓萍;探测生命的“四种武器”[N];人民公安报;2008年
5 张显峰;机载干涉SAR系统掀起测绘革命[N];中国矿业报;2004年
6 ;系统加密防破解[N];中国计算机报;2008年
7 ;22寸宽屏典范[N];电子资讯时报;2007年
8 苗得雨;挺进图像搜索时代[N];电脑报;2008年
9 本报记者 王繁泓;定华:破解储罐液位测量难题[N];中国化工报;2006年
10 记者 董映璧;人类活动影响全球气温[N];科技日报;2007年
中国博士学位论文全文数据库 前10条
1 杨矫云;大规模生物序列分析的高性能算法和模型[D];中国科学技术大学;2014年
2 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
3 黄亮;社会网络中的社区发现与链接预测算法研究[D];华中科技大学;2012年
4 石斌斌;高自由度GNSS抗干扰技术研究[D];国防科学技术大学;2011年
5 李一明;基于传导闭包图结构的布图算法研究[D];电子科技大学;2011年
6 樊玲;微弱目标检测前跟踪算法研究[D];电子科技大学;2013年
7 郭玉坤;某些正反散射问题的快速算法研究[D];吉林大学;2010年
8 兰远东;基于图的半监督学习理论、算法及应用研究[D];华南理工大学;2012年
9 张琦;基于聚合场模型的数据竞争算法及其应用研究[D];哈尔滨工程大学;2013年
10 周玉宇;基于Memetic算法的套料与切割优化方法研究[D];华中科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 陈志强;基于经验模态分解算法的列车超偏载检测[D];中南大学;2010年
2 戴金;改进K-MEANS算法及在Ⅰ型糖尿病血糖值的聚类应用[D];北京交通大学;2011年
3 余港;改进PSO算法及其应用[D];成都理工大学;2010年
4 余兵;基于枝条相关性的人工植物算法[D];太原科技大学;2013年
5 李亚龙;改进量子蚁群算法的研究及应用[D];安徽大学;2014年
6 汪洋;复杂网络的社团发现算法研究[D];安徽大学;2014年
7 段奇志;元器件光学检测系统的算法研究与实现[D];哈尔滨工业大学;2011年
8 庞秀立;基于色散算法的超宽带微波肿瘤检测技术研究[D];西安电子科技大学;2013年
9 史世泽;局部敏感哈希算法的研究[D];西安电子科技大学;2013年
10 石丽红;基于SOM算法的高维数据可视化[D];燕山大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026