收藏本站
收藏 | 论文排版

基于多个k值的DNA序列不对齐比对方法的研究

张雨  
【摘要】:随着下一代基因测序技术的发展,生物学领域产生了大量的数据,对这些生物数据的处理是一个急需解决的问题,同时也是计算机,数学等其他多个领域面临的一个重大挑战,生物信息学在这个背景下产生了。DNA序列之间的比对是生物信息学研究问题之一,并在很多方面有着重要的应用。序列比对旨在发现两条DNA序列之间的相似程度,进而揭示对应物种之间的联系。过去50年里,大量的序列比对方法被提出,目前主要的序列比对方法包括两大类:对齐的方法和不对齐的方法。对齐的方法,往往需要庞大的时间开销,对于两条序列的长度也有一定的要求,无法处理大规模的数据,在当前数据爆炸的环境下已经不适用。不对齐的方法通常是通过从序列中提取长度为k的短序列片段,并统计序列片段的一些统计特征来定义序列相似度。不对齐方法虽然能够快速的得到序列比对结果,但是也面临着两个急需解决的问题:因为这一类方法依赖参数k来提取序列特征,不同的k对于算法的性能影响很大,确定最优的k值往往需要进行大量的实验进行尝试,这给实际应用带来了困难;此外,这一类方法在解决相关问题的准确度上仍然需要进一步提高。本文为解决不对齐比对方法的两个问题,提出综合多个k值的思想。本文使用了两种加权方法用于区分不同k值提取特征的重要性,提高不对齐方法的精度;另外,本文也引入机器学习方法到序列比对领域,处理序列比对相关问题。基于综合多个k值的思想,本文首先对传统的不对齐的D_2类型方法上进行了改进,应用了两种不同的加权方案:最大离差法和遗传算法,对序列特征进行加权处理,提出了两种增强的不对齐比对方法。本文设计并实现了两个序列比对任务,实验结果表明,我们提出的方法在没有额外增加时间复杂度的情况下能高效准确地处理大规模的生物DNA序列,并且相较于以前的不对齐方法,我们的方法所获得实验准确率更高。此外,本文也提出一种用于序列比对的机器学习模型,仍然使用多个k值提取序列特征,对特征进行编码后,采用卷积神经网络对序列比对任务进行处理,相关实验结果表明,相较于以前的不对齐方法,使用卷积神经网络的比对模型准确率更高。


知网文化
【相似文献】
中国期刊全文数据库 前18条
1 李景赞;柳元元;;建立核酸杂交法检查婴儿与肾移殖病人尿标本人巨细胞病毒DNA序列[J];病毒学杂志;1988年04期
2 王勤;;酶促扩增DNA序列新技术——聚合酶链反应(PCR)[J];遗传与疾病;1988年04期
3 张普文;;Iexitropsin类:DNA序列译读因子的设计——新的抗癌药和细胞探针[J];国外医学.药学分册;1989年03期
4 Reinhard H.DENNIN;Jian-er WO;;HCV阴性者外周血单核细胞的染色体外环状DNA中与HCV同源的DNA序列(英文)[J];Journal of Zhejiang University-Science B(Biomedicine & Biotechnology);2019年08期
5 黄立群;丁雪松;张步忠;吕强;;一个深度学习DNA序列特异性的预测模型[J];小型微型计算机系统;2018年11期
6 刘青;叶鹏;Thomas W;Todd M;Manini John A;Kairalla Mary M;McDermott Carlos A.;Vaz Fragoso Haiying Chen Roger A;Fielding Abby C;King Anne B;Newman Gregory J;;在2个老年人群中线粒体DNA序列变异与血压水平相关[J];中华高血压杂志;2018年11期
7 蒋利平,叶青,宋军锋,杨锦华;DNA序列分类数学模型[J];新疆师范大学学报(自然科学版);2001年02期
8 黄悦;王婷;胡益祥;张红伟;;基于DNA序列比对的肺癌早期发现及预防系统设计[J];无线互联科技;2018年23期
9 聂璐;吴奎海;陈文静;李炜煊;;插入序列IS6100介导DNA序列转移的机制研究[J];中国医药生物技术;2019年04期
10 戴银飞;戴银春;;DNA序列比较分析系统的开发设计[J];吉林医学信息;2008年Z2期
11 吴东根;周小安;;基于最长公共子序列的DNA序列相似性分析[J];智能计算机与应用;2018年06期
12 秦雪瑞;刘雄恩;;同源DNA序列中间隔位点的核苷酸最近邻插补[J];福建农林大学学报(自然科学版);2018年05期
13 姚晓枝;黄杨;;以DNA为载体的信息隐藏方法研究[J];计算机应用与软件;2008年03期
14 雷勇;王振国;;DNA的二维图表示[J];吕梁高等专科学校学报;2009年01期
15 李刚成;刘赞波;曾庆光;;一种基于模糊聚类的构造进化树方法[J];计算机应用;2009年03期
16 刘欣睿;;基于分治算法的DNA序列比对成本模型[J];数码世界;2019年03期
17 郭永宁;孙树亮;;基于混沌映射和DNA序列的图像加密[J];图学学报;2017年06期
18 杨子恒;一组DNA序列分析的微机程序[J];遗传;1990年06期
中国重要会议论文全文数据库 前2条
1 袁佳;王振营;何康来;白树熊;;赤眼蜂研究综述[A];植物保护科技创新与发展——中国植物保护学会2008年学术年会论文集[C];2008年
2 王晓杰;韩青梅;黄丽丽;康振生;;基因组学方法在植物保护研究中的应用[A];中国植物病理学会2004年学术年会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 吴伊丽;人骨形态发生蛋白4成熟肽DNA序列的克隆与表达[D];天津医科大学;2003年
2 李志勇;中华蜜蜂卵黄原蛋白基因的分子特征及表达研究[D];东北师范大学;2016年
3 刘君;融合计算智能的蛋白质结构预测研究[D];重庆大学;2011年
4 高洁;基于时间序列理论方法的生物序列特征分析[D];江南大学;2009年
5 王娟;系统发生网络构建算法研究[D];哈尔滨工业大学;2014年
6 余宏杰;生物序列特征信息提取方法及其应用[D];中国科学技术大学;2013年
7 宋晓刚;基于对称性的DNA序列分类和计算模型[D];兰州大学;2010年
8 解小莉;生物序列的分析方法及其进化模型研究[D];西北农林科技大学;2012年
9 邓伟;生物序列的相似性分析及k词模型研究[D];山东大学;2015年
10 黄玉娟;基于k词的DNA序列分析的模型研究及应用[D];大连理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 张雨;基于多个k值的DNA序列不对齐比对方法的研究[D];华东师范大学;2019年
2 赵宇;基于多尺度熵的DNA序列相似性分析[D];深圳大学;2018年
3 彭聪;基于GPU加速和参考基因组的DNA序列压缩方法[D];深圳大学;2018年
4 秦雪瑞;同源DNA序列中间隔位点的缺失数据处理研究[D];福建农林大学;2018年
5 黄立群;基于词化向量的DNA序列特异性预测[D];苏州大学;2018年
6 岳拴琴;北美五倍子蚜DNA序列遗传分化[D];山西大学;2018年
7 刘珂敏;明文转换为DNA序列的对称密码算法与应用[D];广西大学;2017年
8 戴婷婷;云南大理州并殖吸虫的病原学及分子系统学研究[D];昆明医科大学;2013年
9 柳菁筠;生物序列进化树的构建[D];海南师范大学;2008年
10 杜竹青;基于小波变换的基因预测算法研究[D];江苏科技大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978