收藏本站
《西安电子科技大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于期望最大化的高通量测序数据集模体发现算法研究

赵翔  
【摘要】:DNA模体发现就是从给定的DNA序列集合中,找到一组相互相似的序列片断,有助于定位转录因子结合位点等调控元件。转录因子可以与基因上游的特定位点相结合,来控制转录起始和转录速率,这些特定位点称为转录因子结合位点。因此,模体发现算法的研究对揭示转录调控机制有着重要的意义。近些年来,随着高通量测序技术的快速发展,ChIP-seq等技术可以获得全基因组水平上的转录因子结合位点数据,为模体发现提供了大量的实验数据。期望最大化算法被广泛应用于求解模体发现问题,在应对小的数据集时,这些算法通常可以高效且有效的识别出模体,但大数据集为这些算法带来了挑战:如果处理整个数据集,运行时间是不切实际的;如果只处理一个小的样本序列集,则有可能识别不出出现频次较低的模体。针对高通量测序数据集,本文开展了两个部分的工作来设计基于期望最大化的模体发现算法。第一部分工作利用划分样本集并分别求解的策略提出了MDS~3算法。首先将输入序列集划分为多个样本序列集,然后用EM算法求精每个样本序列集中的初始模体,最后将所有样本序列集上的结果进行合并。在对每个样本序列集生成初始模体时,设计了一种能够利用完整输入序列集的方法,有助于识别出现频次较低的模体。实验结果表明,MDS~3与现有的算法(MEME-ChIP,F-Motif,PairMotifChIP)的识别准确率相当,并具有更好的时间性能,尤其是对于大的数据集。特别地,当数据集中的模体出现频次较低时,MDS~3也具有更好的识别准确率。第二部分工作基于在线EM设计了一种在线模体发现算法OMD。从给定的输入序列集中不断地获取数据块;对于每个数据块,利用前一个数据块的信息对当前块进行求解;当输入序列集中的所有序列都求解完成后,对结果进行后处理。在对每个数据块进行求解时,将封闭求解(不利用历史数据进行求解的方法)与在线求解(利用历史数据块的求解结果作为先验信息)相结合,可以有效地避免过分依赖于新的数据块。通过实验表明:OMD识别准确率高于现有的在线模体发现算法(EXTREME);可以有效识别到出现频次较低的模体以及分布不均匀的模体。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP301.6

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 刘璐;张志超;;线性短模体:介导蛋白质相互作用的新模块[J];生物化学与生物物理进展;2017年02期
2 覃桂敏;高琳;呼加璐;;生物网络模体发现算法研究综述[J];电子学报;2009年10期
3 贾承丰;韩华;完颜娟;吕亚楠;;基于网络模体特征攻击的网络抗毁性研究[J];复杂系统与复杂性科学;2017年04期
4 霍红卫;于强;牛伟;;结合最大团求精的随机投影模体发现算法[J];中国科技论文;2013年04期
5 李彩艳;丁海麦;;蛋白质中五类超二级结构模体的统计分析[J];安徽农业科学;2012年26期
6 陈智维;张鉄宁;姚升宇;陆逊;;一种长度可调水模体的研制[J];医疗卫生装备;2011年03期
7 孔德生;何洁月;;蛋白质作用网络中模体识别技术研究[J];计算机技术与发展;2010年08期
8 孙利霞;胡秀珍;李少波;李昆;;基于组合的序列特征识别蛋白质复杂超二级结构βαβ模体[J];内蒙古工业大学学报(自然科学版);2015年03期
9 邹炼;谢朝;吴琦;;3D虚拟模体设计软件的开发[J];生物医学工程学杂志;2014年01期
10 王丙莲;孟庆军;杨艳;马耀宏;史建国;;富脯氨酸模体研究进展[J];生命科学研究;2008年04期
中国重要会议论文全文数据库 前9条
1 李彩艳;胡秀珍;;蛋白质中两种Strand-Loop-Strand模体的判断[A];第十次中国生物物理学术大会论文摘要集[C];2006年
2 高燕莉;张镭;李剑颖;;应用64排CT优化高分辨CT扫描方案的模体研究[A];中华医学会第十三届全国放射学大会论文汇编(下册)[C];2006年
3 李兴东;万国庆;田中青;;X射线CT检测标准的研究[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(下册)[C];2002年
4 安晶刚;;PET质量检测的方法及相应模体[A];全国医用辐射防护与安全学术研讨会论文汇编[C];2004年
5 陈思宇;周素芳;于秋丽;王峰;;肝癌特异性基因启动子中突变位点的筛查和关键模体的分析[A];中国生物化学与分子生物学会第十二届全国会员代表大会暨2018年全国学术会议摘要集[C];2018年
6 张璞;万国庆;孙劼;;简述动态心脏模体在医学成像中的应用[A];2014年全国射线数字成像与CT新技术研讨会论文集[C];2014年
7 陈颖丽;李前忠;;不同亚细胞位置的细胞凋亡蛋白质的结构特性分析[A];第十一次中国生物物理学术大会暨第九届全国会员代表大会摘要集[C];2009年
8 黄志禄;;减少飞边提高压铸件精度的途径[A];2009重庆市铸造年会论文集[C];2009年
9 纪刚;郭勇;骆亿生;张文仲;;~(252)Cf裂变中子源在组织等效模体中的中子和γ辐射剂量分布的计算[A];中华医学会放射医学与防护学分会第三次全中国青年学术交流会论文摘要汇编[C];2001年
中国重要报纸全文数据库 前1条
1 和克智 卫星华;纸浆模塑产品结构对缓冲性能的影响[N];中国包装报;2010年
中国博士学位论文全文数据库 前10条
1 李光辉;蛋白质网络模体发现算法及其在关键蛋白质识别中的应用[D];湖南大学;2015年
2 管青;中国能源上市公司股东共持网络的模体识别及演化机制研究[D];中国地质大学(北京);2018年
3 刘丙强;原核生物中的转录调控模体预测研究[D];山东大学;2010年
4 张凌慧;基因组中顺式调控模体的特征分析与计算预测[D];中国协和医科大学;2005年
5 刘立芳;生物信息学中的多序列比对与模体识别问题研究[D];西安电子科技大学;2006年
6 于强;生物序列模体发现算法研究[D];西安电子科技大学;2014年
7 刘倩;基于贝叶斯统计的基因非编码区与模体识别问题研究[D];西安电子科技大学;2014年
8 宋涛;基于谱隐马尔可夫模型的蛋白质序列模体识别方法研究[D];大连理工大学;2015年
9 周川;原核生物调控模体和调节子预测算法研究[D];山东大学;2014年
10 张懿璞;转录因子结合位点识别问题的算法研究[D];西安电子科技大学;2014年
中国硕士学位论文全文数据库 前10条
1 卫淼;基于对称子图和概率分层的网络模体发现算法研究[D];湖南大学;2014年
2 丁吕;生物网络中的模体发现算法研究[D];湖南大学;2018年
3 陈艳楠;基于系统进化足迹技术的单子叶植物启动子模体预测研究[D];天津师范大学;2018年
4 裴超;面向吉布斯采样的DNA模体发现算法研究[D];湖南大学;2018年
5 魏定邦;基于词频统计的DNA序列大数据集模体发现算法研究[D];西安电子科技大学;2018年
6 赵翔;基于期望最大化的高通量测序数据集模体发现算法研究[D];西安电子科技大学;2018年
7 林克青;一种限定性模体发现问题的算法研究与实现[D];东北大学;2015年
8 张瀚元;基因转录调控模体预测的研究及其在线服务开发[D];吉林大学;2015年
9 郭丹丹;模体识别问题的优化遗传算法研究[D];西安电子科技大学;2010年
10 赵欣蒙;改进的网络模体发现算法及模体功能分析[D];西安电子科技大学;2017年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026