收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于时间序列理论方法的生物序列特征分析

高洁  
【摘要】: 生物信息学的主要研究对象是DNA、RNA和蛋白质分子,因为这些生物大分子包含了遗传及物种进化的所有信息.随着DNA和蛋白质被测序,如何从这些DNA和蛋白质序列中获得更多的生物信息是具有挑战性的问题.随着碱基和氨基酸在基因数据库中的规模呈指数增长,利用新的理论方法去研究DNA和蛋白质序列就变得越来越重要.许多生物学家、物理学家、数学家和计算机专家都被吸引到这个研究领域中来. 在介绍了生物信息学的研究背景之后,本文首先介绍了研究生物序列特性的时间序列理论方法,对本文要用到的短记忆ARMA模型和长记忆ARFIMA模型作了详细的阐述,为研究DNA序列、蛋白质序列特性做了理论上的准备工作. 混沌游走表示(Chaos Game Representation,简记为CGR)是一种迭代映射技术,它可以把序列中的每一个单元,如DNA序列中的核苷酸,蛋白质序列中的氨基酸,映射到一个连续的坐标空间中去.我们基于CGR坐标提出了一种将DNA序列转换成一个时间序列(CGR-游走序列)的方法,并引入长记忆ARFIMA (p, d, q)模型来分析.我们分析了十条DNA序列的CGR-游走序列,发现都能用长记忆ARFIMA (p, d, q)模型高度显著地拟合.作为一个具有完善算法的经典时间序列模型,ARFIMA模型能帮助我们挖掘DNA序列中未知的特性. 因为合适的ARFIMA模型在模型选择时成功率较低,且在参数估计中最大似然计算量较大,用短记忆模型去近似长记忆模型是研究者们感兴趣的问题.我们考虑利用短记忆ARMA(1, 1)过程去近似长记忆ARFIMA(p, d, q)过程,证明了这种适应性方法的均方误差准则,并引入DNA序列的十条CGR-游走序列用以分析,验证了这种近似方法的有效性,为长记忆DNA序列找到了一个算法更为简单的近似模型. 在此基础上,我们还考虑利用ARMA(2, 2)模型去逼近ARFIMA(0, d, 0)模型.基于ARMA(2, 2)模型和ARMA(1, 1)模型有效性损失率的比较可知,ARMA(2, 2)近似模型优于ARMA(1, 1)近似模型.为验证此结论,还引入了服从ARFIMA(0, d, 0)模型的CGR-游走序列用以分析,比较了ARMA(1, 1)和ARMA(2, 2)这两个模型近似ARFIMA(0, d, 0)模型的有效性,根据残差标准差的结果可得ARMA(2, 2)近似模型优于ARMA(1, 1)近似模型. 我们修改了Kalman滤波递推公式,解决了长记忆ARFIMA模型的缺失数据问题,并利用DNA序列的CGR-游走序列验证了此方法的有效性. 基于已建立的DNA序列的CGR-游走模型,我们建立了一个类似的基于详细HP模型的连接蛋白质序列的CGR-游走模型,并引入长记忆ARFIMA (p, d, q)模型来分析,发现来自12条细菌全基因组的连接蛋白质序列的CGR-游走序列能用长记忆ARFIMA (p, d, q)模型显著地拟合.


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王刚,胡德文;基于时间序列预测的独立分量排序[J];国防科技大学学报;2005年05期
2 唐功爽;时间序列分析在经济预测中的应用[J];统计与信息论坛;2005年06期
3 黎锁平,刘坤会;时间序列指数平滑模型新体系及算法[J];应用概率统计;2005年04期
4 王波;张凤玲;;神经网络与时间序列模型在股票预测中的比较[J];武汉理工大学学报(信息与管理工程版);2005年06期
5 李卫国;张俊梅;;多维相关系数平稳序列分析方法[J];沈阳航空工业学院学报;2006年05期
6 程锦泉;刘建平;张仁利;庾蕾;彭绩;池洪珊;聂绍发;;深圳市脑卒中发病与气温关系[J];中国公共卫生;2007年08期
7 池启水;;中国石油消费量增长趋势分析——基于ARIMA模型的预测与分析[J];资源科学;2007年05期
8 蒋雨燕;黄宜坚;;时间序列双谱在调速阀故障诊断中的应用[J];集美大学学报(自然科学版);2008年02期
9 刘培;;基于ARIMA模型对上证国债指数的预测研究[J];上海金融学院学报;2009年06期
10 潘贵豪;胡乃联;刘焕中;李国清;;基于ARMA-GARCH模型的黄金价格实证分析[J];黄金;2010年01期
11 杨晓斌;;海量水文数据处理和管理技术的探讨[J];中国农村水利水电;2010年08期
12 王浩;;农民收入预测及ARIMA模型选择[J];安徽农业科学;2010年31期
13 刘辉;孟祥君;;黑龙江省暴雨日数变化时空特征分析[J];水资源研究;2009年04期
14 郭庆春;何振芳;李力;;西安市空气污染指数的神经网络预测模型[J];河南科学;2011年07期
15 J.F.克雷尔伯特;;地球物理资料处理基础[J];石油地球物理勘探;1979年01期
16 熊有伦;时间序列的状态模型[J];华中科技大学学报(自然科学版);1985年05期
17 孙兰芬;;关于时间序列线性预报问题的单纯形算法[J];运筹学学报;1988年02期
18 周锁铨,屠其璞;长期降水量预报途径的探讨[J];气象科学;1994年03期
19 钟登华,王仁超,皮钧;水文预报时间序列神经网络模型[J];水利学报;1995年02期
20 石美娟;ARIMA模型在上海市全社会固定资产投资预测中的应用[J];数理统计与管理;2005年01期
中国重要会议论文全文数据库 前10条
1 吴炎;杜栋;;改进BP神经网络及其对江苏省粮食产量的仿真预测[A];决策科学与评价——中国系统工程学会决策科学专业委员会第八届学术年会论文集[C];2009年
2 张玉峰;贾成刚;张文喜;;应用时间序列评估人工增雨效果[A];推进气象科技创新加快气象事业发展——中国气象学会2004年年会论文集(下册)[C];2004年
3 王永忠;曾昭磐;;混沌时间序列点预测方法研究[A];1999中国控制与决策学术年会论文集[C];1999年
4 王波;张斌;;一种基于云模型的时间序列特征表示方法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
5 王有良;周文国;;基于时间序列的基坑水平变形预测模型[A];《测绘通报》测绘科学前沿技术论坛摘要集[C];2008年
6 王玉涛;程国辉;周建常;王师;;神经网络在高炉铁水硅含量预报中的应用[A];1998中国控制与决策学术年会论文集[C];1998年
7 许伦辉;傅惠;徐建闽;;基于分形维数的交通流预测模型及算法研究[A];2003年中国智能自动化会议论文集(下册)[C];2003年
8 胡坤;刘思峰;;时间序列灰色定权聚类模型[A];2004年中国管理科学学术会议论文集[C];2004年
9 蒋斌松;韩立军;贺永年;;时间序列Lyapunov指数的估算及预测[A];矿山建设工程新进展——2005全国矿山建设学术会议文集(下册)[C];2005年
10 何全军;曹静;张月维;;基于MODIS的广东省植被指数序列构建与应用[A];中国气象学会2007年年会生态气象业务建设与农业气象灾害预警分会场论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 杨正瓴;时间序列中的混沌判定、预报及其在电力系统中的应用[D];天津大学;2003年
2 张晓伟;水文动力系统自记忆特性及其应用研究[D];西安理工大学;2009年
3 倪丽萍;基于分形技术的金融数据分析方法研究[D];合肥工业大学;2010年
4 刘大同;基于Online SVR的在线时间序列预测方法及其应用研究[D];哈尔滨工业大学;2010年
5 张永林;车辆道路数值模拟与仿真研究[D];华中科技大学;2010年
6 崔亚强;沪深300股指内在复杂性分析及预测研究[D];天津大学;2010年
7 杨谈;网络混沌行为及其控制的研究[D];北京邮电大学;2009年
8 李星毅;基于相似性的交通流分析方法[D];北京交通大学;2010年
9 肖辉;时间序列的相似性查询与异常检测[D];复旦大学;2005年
10 卢占会;电力市场稳定性研究[D];华北电力大学(河北);2008年
中国硕士学位论文全文数据库 前10条
1 Ashraf Fetoh Eata;[D];厦门大学;2001年
2 王丽敏;两类模糊随机时间序列预测方法[D];河北大学;2001年
3 王琦;时间序列在油田效益审计中的应用[D];吉林大学;2009年
4 韩冬梅;基于P2P的教学信息资源负载均衡调度算法的研究[D];哈尔滨工程大学;2010年
5 张雷;多层次分布式智能决策支持系统及应用研究[D];西北工业大学;2006年
6 王金翠;基于实测数据的风电场风速和风功率短期预测研究[D];东北电力大学;2010年
7 赵松雷;基于频谱仪的无线自动测试系统与信号特性分析[D];北京邮电大学;2010年
8 姚兰;中国民办高等教育市场空间研究[D];河南大学;2007年
9 吴烨清;时间序列理论在软件可靠性建模中的应用和研究[D];华中农业大学;2009年
10 曹晓琴;非线性优化的混合算法及其应用[D];燕山大学;2010年
中国重要报纸全文数据库 前10条
1 ;《时间序列与金融数据分析》[N];中国信息报;2004年
2 东证期货 王爱华 杨卫东;两年涨跌轮回 秋季普遍下跌[N];期货日报;2009年
3 本报记者 刘松柏;“超级月球”引发地震不成立[N];经济日报;2011年
4 权证一级交易商 国信证券;正股走势及时间序列主导下半年权证市场运行结构[N];证券时报;2006年
5 房鹏;数码书信寄真情[N];中国电脑教育报;2005年
6 刘丽萍;时间序列季节调整描述经济活动的利器[N];中国信息报;2000年
7 西南证券高级研究员 董先安德圣基金研究中心 郭奔宇;预计6月CPI同比上涨7.2%[N];证券时报;2008年
8 国泰君安期货 吴泱 郑腾;基金持仓与期货价格关系的实证研究[N];期货日报;2008年
9 倪成群;人民币升值背景下中外金价和黄金投资收益关联性研究[N];期货日报;2008年
10 中期研究院 王璐 吕圳;重标极差法的期货品种收益波动性研究[N];期货日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978