收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于神经网络方法蛋白质二级结构预测的研究

景楠  
【摘要】:生物信息学包含了生物信息的获取、处理、存储、分发、分析和解释等各个方面,特别是综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。目前主要的研究对象是生物大分子,采用计算机作为主要的研究工具来加工这些生物大分子的数据。随着互联网络的发展,给生物学家们提供了更好的交流机会,一些部门提供了数据的共享、查询、分析等相关服务。 目前,蛋白质空间结构的预测方法可以分为两大类:分子动力学方法主要是从一些基本原理或假设出发,来预测和研究蛋白质的结构和折叠过程,但这一方法无法解决全局自由能最小的问题;基于知识的预测方法,主要是从观察和总结已知结构的蛋白质结构规律出发,来预测未知蛋白质的结构。 蛋白质是在分子级执行最基本生命功能的多肽链,多肽链被认为是二十种氨基酸字符的线性序列,它折叠成为与其功能相应的复杂的三维结构。预测蛋白质如何折叠的关键一步是预测它的二级结构,二级结构由局部折叠规则构成,常常由氢键维持。 蛋白质二级结构预测是生物信息学中的重要课题之一,二级结构预测就是给出由氨基酸组成的蛋白质序列中每一个氨基酸所对应的结构是什么。二级结构预测方法区分?螺旋(Helix)、?片段(Strand)和非常规结构。Helix对应的表示为H,Strand为E,非常规结构为C。 由于径向基函数网络在逼近能力、分类能力和学习速度等方面均优于BP网络,针对这一复杂非线性的模式分类问题,本文在分析了基于神经网络蛋白质二级结构预测方法的基础上,探讨了基于径向基函数网络的预测途径。同时研究了蛋白质二级结构预测算法研究中的数据选取、网络参数确定和参数对网络性能的影响,模型的实验结果预测准确率平均可以达到69%左右,表明基于径向基函数网络预测的可行性和有效性。 选择适当有效的训练集是进行本项研究工作的基础。有些序列会主要由其中某一种结构组成,所以在选取训练集的时候必须要注意。为达到较高的预测准确率,训练集必需足够大,而且要包含一定数目的各种结构。 利用网上的蛋白质结构数据库PDB提供的数据,构建适合本文应用的数据库。根据需要构建数据库很重要,因为以下两点:PDB数据库蛋白质记录很长很详细,必须从中提取相关部分,建立自己的数据库;必须从蛋白质数据库中选取合适以及足够大量的蛋白质集作为训练与测试集。 相邻残基之间的相关性对预测蛋白质二级结构是十分重要的。简单径向基网络的预测精确度受限,正是由于缺乏对这种相关性的“理解”。在预测 WP=53 蛋白质二级结构时,为更多的参考序列中相邻残基之间的相关性,在利用简单径向基网络进行预测的基础上引入级连径向基网络。级连后的网络可以学习相邻残基之间的相关性。 利用进化信息可以提高基于神经网络预测方法的准确度。为将进化信息引入二级结构预测中,需要把一个未知结构的序列同数据库中已知结构序列进行比对抽出同类者。进行多序列比对,就是为引入相关蛋白质家族的进化信息。通过序列比对之后提取蛋白质家族的信息,就是利用进化信息,从而有效地提高蛋白质二级结构的预测准确率。然而在这一的过程中,在一些情况下却不可避免地错误引入了其它非相关蛋白质家族的信息。也就是说,经多序列比对产生的结果有可能被“污染”。研究者认为,为防止“污染”进行多序列比对的数据库应该先被“过滤”。 本文实验第一步用简单的RBF网预测蛋白质二级结构。实验隐层结点数的变化对预测结果的影响,本文实验结果证明,使用31个隐层节点时效果最佳。简单RBF网可以达到大约63%左右的预测精确度。 第二步将径向基函数网级连。级连以后,对窗口大小也需要通过实验来决定。经试验,认为窗口大小w =15时效果最佳,级连可以达到69%左右的预测准确率。 第三步,用PSI-BLAST程序来进行训练前的序列比对,以得到结果中氨基酸残基的出现频率作为第一层的输入。这只是利用进化信息的一种初步尝试,可以再将预测准确率提高几个百分点。 研究结果表明,更多的参考序列中的进化信息,调整隐层神经元数目以及窗口宽度设计等方面的网络参数,能够进一步提高蛋白质二级结构的预测精度。本文用径向基神经网络开发了蛋白质二级结构预测系统,取得了一定的应用成果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 孙廷容;杨菊香;张洪波;黄强;王功;;基于径向基函数网络的能源消费量预测模型[J];西安理工大学学报;2006年02期
2 周振;;基于径向基神经网络的人民币汇率预测[J];电脑开发与应用;2009年03期
3 王忠忠;钱为民;;径向基神经网络在地面沉降预测中的应用[J];地下水;2006年02期
4 赵志彦;詹原瑞;;径向基函数网络的库存预测方法与仿真实验比较分析[J];天津大学学报(社会科学版);2007年05期
5 张祖勇;孙龙清;;基于支持向量机的miRNA预测方法研究[J];中国科技信息;2008年20期
6 张海霞,唐焕文,张立震,靳利霞,唐一源;蛋白质二级结构预测方法的评价[J];计算机与应用化学;2003年06期
7 宋芳;向小东;;径向基函数网络的改进算法在油价预测中的应用[J];科技和产业;2007年01期
8 崔华清;赵正信;;径向基神经网络在软基沉降预测中的应用[J];中国水运(学术版);2008年01期
9 何琴;高建华;刘伟;;蛋白质二级结构预测的人工神经网络方法研究[J];分析科学学报;2006年04期
10 马伟华;刘珑龙;张建民;;基于径向基函数网络的浮游植物活体三维荧光光谱分类[J];计算机辅助工程;2006年03期
11 马伟华;刘珑龙;张建民;;基于径向基神经网络的浮游植物分类系统[J];计算机应用与软件;2008年06期
12 陈连军;粟才全;;矿井瓦斯涌出量的径向基函数网络预测模型[J];山东科技大学学报(自然科学版);2009年04期
13 刘桂霞;吕晓枫;徐春艳;周春光;;暂态混沌神经网络在蛋白质关联图预测中应用研究[J];小型微型计算机系统;2008年07期
14 赵蕴杰;龚洲;肖奕;;基于二级结构的RNA三级结构预测[J];生物物理学报;2009年S1期
15 吴晓明,王波,程敬之;基于小波分析法的蛋白质结构研究[J];西安交通大学学报;2002年04期
16 汪定伟,裴伟民,刘树安;科技人员需求量的预测方法[J];控制与决策;1989年05期
17 郭亚军;刘赋;王惠德;窦胜功;宁坚;;科技人才需求量的预测方法[J];预测;1993年05期
18 刘永宏;;灰色预测模型在机械设备运行状态趋势分析中的应用[J];江南大学学报(自然科学版);1993年02期
19 傅金祥,马兴冠;水资源需求预测及存在的主要问题探讨[J];中国给水排水;2002年10期
20 姬永红,项彦勇;水底隧道涌水量预测方法的应用分析[J];水文地质工程地质;2005年04期
中国重要会议论文全文数据库 前10条
1 雷向杰;;月平均气温客观集成预测方法研究[A];第28届中国气象学会年会——S5气候预测新方法和新技术[C];2011年
2 谭洪艳;郭继平;陈飞;;基于径向基网络的燃气短期负荷预测[A];中国土木工程学会城市燃气分会输配专业委员会2005年会议论文集[C];2005年
3 丁光彬;王治昆;赵林明;翟传仁;;包络预测方法及其在电力负荷预测中的应用[A];管理科学与系统科学进展——全国青年管理科学与系统科学论文集(第4卷)[C];1997年
4 钟玲文;郑玉柱;员争荣;雷崇利;张慧;;煤在温度和压力综合影响下的吸附性能及其未知区煤层气含量的预测方法[A];煤田地质与可持续发展——中国煤炭学会、中国地质学会煤田地质专业委员会2001年学术年会论文集[C];2001年
5 冯国昌;耿媚;杜素周;孙思先;;预测方法在无功动态补偿中的应用及仿真[A];2001中国钢铁年会论文集(下卷)[C];2001年
6 朱美琳;陈安;;航空服务成本预测的支持向量机方法研究[A];2004年中国管理科学学术会议论文集[C];2004年
7 邵学栋;;生产类开发建设项目土壤流失量预测方法探讨[A];2008中国水力发电论文集[C];2008年
8 吴卫平;;基于经济计量模型的动态仿真预测方法[A];全国青年管理科学与系统科学论文集(第2卷)[C];1993年
9 白敏植;王志勇;;科技进步对经济增长贡献率的预测方法研究[A];中国现场统计研究会第九届学术年会论文集[C];1999年
10 蒋海峰;魏学业;张屹;;基于加权一阶局域法的短时交通流量预测的研究[A];可持续发展的中国交通——2005全国博士生学术论坛(交通运输工程学科)论文集(下册)[C];2005年
中国博士学位论文全文数据库 前10条
1 施绍萍;基于支持向量机的蛋白质功能预测新方法研究[D];南昌大学;2012年
2 邱智军;蛋白质结合位点预测方法研究与应用[D];大连理工大学;2012年
3 张同亮;基于智能计算的蛋白质功能预测研究[D];东华大学;2008年
4 陈梅香;基于SVM和GIS的梨小食心虫预测系统的研究[D];北京林业大学;2010年
5 郭建秀;蛋白质折叠速率预测方法研究[D];电子科技大学;2011年
6 石鸥燕;蛋白质结构预测模型的研究[D];天津医科大学;2008年
7 张拓;两种特殊类型蛋白质功能残基的预测与生物序列比对[D];南开大学;2009年
8 赵蕴杰;非编码RNA结构预测研究[D];华中科技大学;2012年
9 倪同和;道路交通规划关键指标预测方法研究[D];吉林大学;2011年
10 刘英博;工作流运行时人员智能分配技术研究[D];清华大学;2008年
中国硕士学位论文全文数据库 前10条
1 景楠;基于神经网络方法蛋白质二级结构预测的研究[D];吉林大学;2004年
2 闫蓬勃;蛋白质二级结构预测准确率影响因素探讨[D];河北大学;2009年
3 郭亚楠;基于神经网络的软岩巷道变形预测研究[D];河北工程大学;2007年
4 郭建秀;基于神经网络的蛋白质折叠速率预测[D];山东理工大学;2007年
5 杨晓斌;集成学习方法在上市公司盈利预测中的应用研究[D];湖南大学;2009年
6 李淑玲;基于相似性的链接预测方法研究[D];哈尔滨工程大学;2012年
7 郑顺香;上市公司财务困境预警模型实证分析[D];天津大学;2006年
8 莫旭;预测方法在粮食行业的应用[D];吉林大学;2004年
9 程义菊;电梯交通流预测方法的研究[D];天津大学;2004年
10 戴珺晶;江苏省专利产出与专利战略分析[D];南京财经大学;2006年
中国重要报纸全文数据库 前10条
1 姜伟峰;关注客户真实需求 提高订单预测准确率[N];经理日报;2006年
2 宫卫平;提高准确率是气象工作的基础和核心[N];中国气象报;2007年
3 李蕾;湖北负荷预测准确率上升[N];华中电力报;2005年
4 通讯员 陈力玮;依托技术创新带动管理创新[N];中国电力报;2008年
5 潘建设;如何提高客户预置订单的准确率[N];经理日报;2006年
6 本报记者  潘建梁;4月份研究员业绩预测准确率排名火热出炉[N];上海证券报;2006年
7 本报评论员;稳扎稳打 切实提高预报预测准确率[N];中国气象报;2008年
8 易倍生;股民需要全新的预测方法[N];山西经济日报;2002年
9 英信;心脏病预测方法将变得更简便[N];医药经济报;2003年
10 林琳刘晓林;贯彻落实十七大精神 提高预报预测准确率[N];中国气象报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978