收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

蛋白质Beta折叠的分析与预测及生物信息工具开发

张宁  
【摘要】:β折叠是一种重要的蛋白质二级结构类型之一,也是影响蛋白质结构预测精度的主要因素之一。对β折叠结构的深入研究和精确预测能够在很大程度上提高蛋白质结构预测的准确率,并对蛋白质折叠和蛋白质设计研究有重要的推动作用。本文就重点对β折叠结构进行研究。 研究使用来自PISCES服务器的一个数据集。在对数据进行前处理时,改造和完善了我们前期工作中构建的SheetsPair数据库,并将PISCES的数据集整合到SheetsPair数据库中,后续的研究就通过该数据库管理数据。 对β折叠结构的研究,遵循从β股间氨基酸配对出发到β股肽链配对的路线。首先对β股间的氨基酸配对进行了统计分析。结果表明,股间氨基酸配对不是随机的,而从整体上表现出一种明显的配对亲和倾向。基于统计结果,还分别得到了平行折叠、反平行折叠和总体β折叠的反映氨基酸配对偏好性的相对频率矩阵,这些矩阵成为我们后续研究的基础。分析还发现疏水作用和二硫键是影响氨基酸配对的两种主要因素,此外尚有其他因素(如周围环境)可能也影响氨基酸配对。平行折叠和反平行折叠的氨基酸配对偏好性也不相同。 然后基于计量多维尺度(MMDS)的方法,对氨基酸配对偏好性进行了分析。通过MMDS的方法,将相对频率矩阵中反映的氨基酸配对的主要特征以图形方式直观地展示出来。在平行折叠、反平行折叠和总体β折叠的MMDS图中都可以看到有一个明显的氨基酸聚集“核心”,位于“核心”的氨基酸主要是疏水性较强的氨基酸,说明了疏水作用在β折叠结构中的重要性。通过MMDS分析,也发现了平行折叠和反平行折叠的氨基酸配对亲和性的差异,这为今后开发预测区分平行折叠和反平行折叠的算法打下了基础。基于MMDS分析的结果,并结合分层聚类的方法,还提出了一种对20种氨基酸聚类降维的方式:总体上将20种氨基酸聚为5类最优,而单独考察平行折叠时聚为6类最优,单独考察反平行折叠时聚为4类最优。 在前面对β股间氨基酸配对分析的基础上,下面考察β股肽链的配对和排列。从直观上讲,β股的配对排列至少应包括三个方面的研究内容:(1)确定配对关联,即确定组成β片层的各条β股的两两配对关系;(2)预测配对的两条β股的相对方向(平行或反平行);(3)确定配对的两条β股的相对位置。我们的研究就围绕这三个方面分别展开。 首先重点考察了第(2)方面,即配对β股的相对方向(平行或反平行)。基于前面分析得到的氨基酸配对相对频率矩阵,分析了氨基酸配对与β股排列方向的关系。结果表明,股间氨基酸配对与β股的平行/反平行的排列方向具有十分显著的相关性,股间氨基酸的相互作用在β折叠形成的平行/反平行排列方向的确定上起到了重要的甚至是决定性的作用,而环境因素和其他不确定因素在这方面的影响较小。我们从这个结论出发,采用一种新的编码方式,并基于支持向量机(SVM)开发了一种预测β折叠平行/反平行排列方向的方法。结果表明,该方法可获得比较高的预测准确率(86.89%的准确率和0.7126的Matthew系数值)。 在第(1)方面,对β股配对关联规律进行了初步研究,发现β折叠股配对关联较多地表现出一种邻近配对倾向(“先来先配”倾向)。在反平行折叠中,相邻β股的配对还有对氨基酸距离的较强偏好性;而在平行折叠中,这种偏好性较弱。 在第(3)方面,发现组成β片层的β股肽链在两两配对排列时,其末端并不一定彼此对齐,而往往出现一定的“延伸末端”。通过对延伸末端的统计分析表明,配对部分的长度占延伸长度(延伸长度是配对部分长度与两端的延伸末端长度之和)的比例一般要超过25%,配对部分的长度占β折叠股长度的比例一般要超过40%。 基于研究实践中摸索和积累的许多生物信息学研究经验,我们开发了一些软件或工具,可为包括β折叠在内的许多生物信息学研究带来便利。这些工具主要有:用于β折叠股间氨基酸配对可视化的StrandPairsViewer软件、用于生物大分子序列关系动态绘图和可视化分析的SRD软件、用于时间序列数据读取和展示的NRChart控件(ActiveX控件)、用于膜片钳数据前处理的PCDReader软件、用于长时程增强(LTP)实验数据文本转换的LTPConverter工具、用于日常生物信息通用纯文本处理的超级记事本软件等。其中对许多软件和工具都在其性能优化上做了大量工作(提高运行速度、减少占用内存等)。文中对软件的特点、主要功能、以及主要的程序设计技术、方法技巧等进行了介绍。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 肖苏君;邵可毅;;浅谈自治区级气象数据集系统的建设[J];内蒙古气象;2006年04期
2 陈德诚;丘平珠;唐炳莉;;广西气象数据集设计与制作[J];气象研究与应用;2007年04期
3 王毅涛;;重要天气过程个例资料数据集网络管理系统[J];科技资讯;2006年21期
4 庞明勇,卢章平;局部数据集与噪声数据曲线的平滑过滤[J];矿山测量;2001年04期
5 张红娟;;陕西省气象科学数据集及质量控制[J];陕西气象;2007年04期
6 袁林旺;闾国年;谢志仁;董华军;俞肇元;孙健;;地球系统科学数据共享网的气候-海面变化数据集建设[J];地球信息科学;2008年01期
7 于灵雪;张树文;卜坤;杨久春;颜凤芹;常丽萍;;雪数据集研究综述[J];地理科学;2013年07期
8 纪秀艳;张崇辉;刘冠男;;中国地面气候标准值数据集资料的快速检索工具[J];安徽农业科学;2013年10期
9 王小宁;阴秀菊;汤浪;;陕西省气象科学共享数据集的制作及处理[J];陕西气象;2009年04期
10 申彦;宋顺林;朱玉全;;一种基于半监督的大规模数据集聚类算法[J];南京大学学报(自然科学版);2011年04期
11 徐尽;;引入偏置选择变量的不平衡数据集重采样方法[J];科技通报;2013年08期
12 吴国清;莫则尧;陈虹;;一种基于信息测度的科学数据集序列约减方法[J];计算物理;2009年06期
13 赖志斌,夏曙东,王浒,承继成;基于元数据和数据集管理的应用模型研究[J];地理科学进展;2002年04期
14 李庆祥;李伟;;近半个世纪中国区域历史气温网格数据集的建立[J];气象学报;2007年02期
15 樊建平,刘兴汉;充分发挥气象信息化资料的几点思考[J];内蒙古气象;2004年01期
16 张强;阮新;熊安元;;近57年我国气温格点数据集的建立和质量评估[J];应用气象学报;2009年04期
17 唐新宇;陈晓明;;基于合成新样本的不平衡数据集上采样算法[J];科技通报;2013年08期
18 王洪庆,张焱,陶祖钰,陈受钧;五维大型复杂数据集计算机可视化[J];自然科学进展;1998年06期
19 张侠,程少华,朱建钢;中国极地科学数据库系统的研究与建立 I.数据资源的组织以及元数据与数据集的关系研究[J];极地研究;2002年01期
20 蔡娜;王俊英;刘惟一;;一种基于小数据集的贝叶斯网络学习方法[J];云南大学学报(自然科学版);2007年04期
中国重要会议论文全文数据库 前10条
1 田捷;;三维医学影像数据集处理的集成化平台[A];2003年全国医学影像技术学术会议论文汇编[C];2003年
2 范明;魏芳;;挖掘基本显露模式用于分类[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 冷传良;;飞机化铣成样板划线数据集设计方法探索[A];第十届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2013年
4 孟烨;张鹏;宋大为;王雷;;信息检索系统性能对数据集特性的依赖性分析[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
5 段磊;唐常杰;左劼;陈宇;钟义啸;元昌安;;基于基因表达式编程的抗噪声数据的函数挖掘方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 阎玮;柏文阳;张剡;;基于FP-Tree重构事务数据集的关联规则隐藏[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
7 苏力德;;基于PDM系统实现民机数据的管理[A];第十届沈阳科学学术年会论文集(经济管理与人文科学分册)[C];2013年
8 吴京生;封秀燕;;浙江自记降水数据集的制作过程[A];第四届长三角科技论坛论文集(下册)[C];2007年
9 刘斐;樊华;金松昌;贾焰;;一种新型k匿名隐私保护算法[A];第27次全国计算机安全学术交流会论文集[C];2012年
10 曹露燕;蒋晓云;孟凡荣;;基于数值型和分类型混合属性数据集的聚类算法研究[A];2006“数学技术应用科学”[C];2006年
中国博士学位论文全文数据库 前10条
1 史卫亚;大规模数据集下核方法的技术研究[D];复旦大学;2008年
2 钱鹏江;大规模数据集聚类方法研究及应用[D];江南大学;2011年
3 吴国清;科学计算时变数据集的数据挖掘算法研究[D];中国工程物理研究院;2009年
4 余雳;虚拟可视鼠样品制备技术研究[D];华中科技大学;2006年
5 孙汉昌;蛋白质组质谱数据处理关键问题与技术研究[D];国防科学技术大学;2011年
6 吴毅;数字人全身分割数据集的建立及人体胸腔与盆腔的数字化研究[D];第三军医大学;2012年
7 黄浩;基于近邻关系的稀有类挖掘[D];浙江大学;2012年
8 杜乃乔;过程感知信息系统的负载生成技术[D];清华大学;2012年
9 张纪阳;蛋白质组学中串联质谱数据搜库结果质量控制方法研究[D];国防科学技术大学;2007年
10 纳赛尔 阿里 穆罕默德 巴拉卡特;复杂化学数据的知识发现新型化学计量学算法研究[D];湖南大学;2005年
中国硕士学位论文全文数据库 前10条
1 王春玉;非平衡数据集分类方法研究及其在电信行业中的应用[D];浙江大学;2011年
2 余岳林;基于相对位置视点的数据集精简算法研究[D];浙江大学;2013年
3 张华;时空数据集的连接处理与优化方法研究[D];河海大学;2006年
4 张利娜;不均衡数据集的研究及其在蛋白质相互作用位点预测中的应用[D];安徽大学;2011年
5 张健;剪枝和网格采样相结合的非平衡数据集分类方法[D];安徽大学;2012年
6 邴兆虹;区间估计的不完整数据集混杂聚类算法研究[D];辽宁大学;2013年
7 李涛;基于数据集动态更新的隐私保护算法[D];哈尔滨工程大学;2013年
8 万怀宇;大规模交往数据集的凝聚子群分析研究[D];北京交通大学;2007年
9 李祖德;基于K匿名数据集的隐私推理攻击检测和防范研究[D];清华大学;2006年
10 孟军;不平衡数据集分类算法的研究[D];南京理工大学;2014年
中国重要报纸全文数据库 前10条
1 王素琴刘晓林 通讯员 王新华;宇如聪强调用好16个新数据集产品[N];中国气象报;2008年
2 记者 刘浪 通讯员 廖雅琴;中国首套数字化“可视人”数据集在渝通过成果鉴定[N];重庆日报;2003年
3 通讯员廖雅琴记者冯竞;“国人数字化可视人体数据集”完成[N];科技日报;2003年
4 金水高 刘丽华 陶庄;基本数据集标准新进展[N];计算机世界;2006年
5 上海 陈纯;初识T-SQL,恋情的开始[N];电脑报;2004年
6 昌家杰 邹莹 本报记者 于莘明;探究“数字人”的虚与实[N];科技日报;2005年
7 山水;艾斯本与NIST集合数据集[N];中国石化报;2007年
8 张绍祥 李国辉;研究领域:以人为本[N];计算机世界;2003年
9 张荔子 秦笃烈;“数字人”走向应用[N];健康报;2006年
10 游雪晴;我国均一化气温数据集建成[N];科技日报;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978