收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

蛋白残基可溶性预测及基因表达数据分析方法研究

王娴  
【摘要】: 随着计算机和互联网技术的迅速发展,生物学研究领域发生了巨大的变化。生物信息学是结合了生物学和信息学技术的一门新兴交叉学科,是将信息技术应用于生物数据进行存储、管理、分析的学科。它不仅是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。 系统生物学和生物信息学相同,是伴随着生物学、信息技术的发展而诞生的交叉学科。系统生物学和人类基因组计划有着密切的关系,正是在基因组学、蛋白质组学等新型大科学发展的基础上,孕育了系统生物学。系统生物学是研究一个生物系统中所有组成成分(基因、mRNA、蛋白质等)的构成,以及在特定条件下这些组分间的相互关系的学科。进行系统生物学的研究,仅仅依靠传统生物学手段已经远远不能满足要求。数学,物理学,信息学的发展为系统生物学提供了有用的技术手段。而大规模计算机的出现更使得大规模数据的计算成为现实。系统生物学将是21世纪医学和生物学的核心驱动力。 生物信息学和系统生物学的发展将不仅对相关基础学科起巨大的推动作用,还将对农业、医药、卫生、食品等产业产生巨大的影响。当前生物信息学和系统生物学的一个重要发展方向是发展基于机器学习方法的数据分析技术。相对于传统的试验方法,机器学习方法具有快速、自动的优点,尤其适用于高通量大规模生物数据分析。本文主要研究内容如下: (1)从蛋白质一级氨基酸序列对蛋白质的三维空间结构进行预测是生物信息学研究的重点、难点之一。作为一种可行的辅助手段,对蛋白质氨基酸残基可溶性的预测引起了广大生物信息学家的关注。蛋白质可溶性表征蛋白质残基在三级结构中与溶剂接触的程度,是反映蛋白三级结构以及功能位点的主要特征。本文采用支持向量机方法对蛋白质氨基酸残基可溶性进行预测。按照一定的阈值将蛋白质氨基酸残基可溶性分成两类(内部/表面)或三类(内部/中间/表面),并选择不同窗宽和参数对数据进行训练和预测,以确保得到最好的分类效果。在不同数据集上和其他已有方法进行比较:对同一数据集不同分类阈值的预测结果显示,支持向量机方法对蛋白可溶性的整体预测效果好于神经网络和信息论的方法。其中,对两类数据的最优分类结果达到79.0%,对三类数据的最优分类结果达到67.5%,表明支持向量机是蛋白残基可溶性预测的一种有效方法。 (2) DNA微阵列技术是一种近年来发展起来的新型高通量生物检测技术。微阵列技术能够在基因组规模上对基因表达谱、患者基因型、药物代谢、疾病的发生和发展过程进行快速和定量的分析,这种技术使科学家在单次试验中就可以分析某种生物的整个基因组。因为各种原因,如图片解析度不够、图象损坏都会造成微阵列表达谱数据的缺失,影响后续的数据分析。本文提出了一种新的基于正交输入编码和支持向量回归方法的基因表达谱缺值估计方法。该方法采用支持向量回归估计缺值,并且采用正交向量编码的方法解决在某些表达谱数据的行中具有多个缺失值的问题。在六个不同的数据集上和其他已有方法进行比较。由于正交输入编码方法使得计算中最大程度考虑了整个基因表达谱的信息,并且支持向量回归方法是一种具有坚实的统计学习理论基础的机器学习方法,保证了该方法在各个数据集上均有较好的估值性能。当数据中混有不同程度噪声时,该方法也表现出较好的鲁棒性。因此该方法在基因表达谱缺值估计方面是一种有效的方法。 (3)由DNA微阵列实验获得的基因表达谱中蕴含着丰富的生物信息,如何从表达谱数据中发现这些生物信息,构建相关的生物网络体系,是系统生物学研究关注的问题之一。本文使用贝叶斯网络结构推断的方法,利用基因表达谱数据进行调控网络重构的工作。分别采用离散和连续数据作为输入数据,在结构推断中采用不同的近似方法对目标贝叶斯网络拓扑结构进行推断。在酿酒酵母基因的表达谱数据集上的结果表明,不同近似方法可以获得类似的网络拓扑结果。结合已知的生物学信息,分析所获得的部分网络,结果表明,贝叶斯网络结构推断的方法可以获得具有生物学意义的网络拓扑结构,可以为生物学家提供实验设计的依据。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 钟扬;;生物信息学与系统生物学在植物抗旱研究中的应用[J];生物物理学报;2009年S1期
2 梁艳春;;长春系统生物学国际研讨会[J];国际学术动态;2008年04期
3 ;最新生物学信息图表标准发布[J];企业技术开发;2009年09期
4 刘瑞瑞;;现代生物学研究中的“组学”[J];中国农学通报;2009年18期
5 彭永德,高国峰,顾彦杰,胡仁明,陈家论;人肾上腺基因表达谱的建立及其功能的新认识(英文)[J];生命科学研究;2005年03期
6 黄利辉;;文本挖掘在生物学中的应用[J];医学信息学杂志;2006年03期
7 王成雄;饶妮妮;王玉;;用主成分分析探索基因表达模式[J];生物医学工程学杂志;2007年04期
8 张震;李军利;;机器学习方法及其在生物信息学中的应用[J];吉首大学学报(自然科学版);2006年04期
9 张彦琦;李辉智;易东;;基因芯片表达数据分析方法研究进展[J];重庆医学;2005年12期
10 张震;刘兴平;;机器学习技术在生物信息挖掘中的方案探讨[J];广西民族学院学报(自然科学版);2006年01期
11 吴晓建,李晶,刘昌孝,元英进;生物信息学应用于代谢物组学研究的进展[J];化工学报;2005年10期
12 田鹏;岳俊杰;梁龙;黄培堂;;基因调控网络的生物信息学研究[J];生物技术通讯;2006年02期
13 ;第三届全国生物信息学与系统生物学会议将在武汉召开[J];遗传;2008年08期
14 王明会;李骜;王娴;冯焕清;;Markov链模型在蛋白质可溶性预测中的应用[J];生物医学工程学杂志;2006年05期
15 李辉;张宏波;杨旭宇;王磊;周文;任彩萍;;用生物信息学方法处理基因芯片结果[J];生命科学研究;2006年04期
16 纪兆华;赵洁茹;于静红;;基于模式识别技术的基因谱表达数据分析初探[J];科技资讯;2010年36期
17 杨剑;;中英联合启动“中英科学年”[J];国际学术动态;2006年03期
18 李伍举;基因表达谱的生物信息学[J];军事医学科学院院刊;2002年01期
19 陈鸿飞;王进科;;转录因子相关数据库[J];遗传;2010年10期
20 林辉,熊鸿燕;系统生物学及其研究进展[J];重庆医学;2005年09期
中国重要会议论文全文数据库 前10条
1 周晓君;茅云翔;王孟强;孔凡娜;隋正红;张学成;;条斑紫菜cDNA微阵列制备及其在世代差异基因表达检测中的应用[A];中国海洋湖沼学会藻类学分会第七届会员大会暨第十四次学术讨论会论文摘要集[C];2007年
2 果德安;;蛋白质组学技术在中药研究中的应用[A];中医药中青年科技创新与成果展示论坛论文集[C];2009年
3 果德安;;蛋白质组学技术在中药研究中的应用[A];自主创新与持续增长第十一届中国科协年会论文集(3)[C];2009年
4 徐存拴;常翠芳;陈晓光;Salman Rahman;;大鼠基因组的肝再生相关基因鉴定及表达谱分析[A];中国细胞生物学学会第九次会员代表大会暨青年学术大会论文摘要集[C];2007年
5 艾浩;牛建昭;王继峰;;中医生物信学息学理论与技术在证候学研究中的应用[A];第八届全国中西医结合实验医学研讨会论文汇编[C];2006年
6 李学军;;系统生物学对药物发现的影响[A];新观点新学说学术沙龙文集23:新药发现——寻找维护人类健康的武器[C];2008年
7 赵红;;以系统生物学信息处理促进健康管理的发展[A];自主创新与持续增长第十一届中国科协年会论文集(3)[C];2009年
8 郑伟文;刘波;;生物信息学与药用植物研究[A];全国中药材GAP研究与应用学术研讨会会议论文汇编[C];2004年
9 汪贵珍;来姿君;曾湘文;陈水田;陈介甫;;系统生物学探讨内毒素引起之反应及中草药防治机理[A];第六届海峡两岸心血管科学研讨会论文摘要集[C];2007年
10 杨美香;曲迅;孙宝柱;闫实;冯进波;类维富;;生物信息学在新基因CHP2研究中的应用[A];山东微生物学会第六次会员代表大会暨2004年学术年会论文集(上)[C];2004年
中国博士学位论文全文数据库 前10条
1 王娴;蛋白残基可溶性预测及基因表达数据分析方法研究[D];中国科学技术大学;2007年
2 杜伟;机器学习及数据挖掘在生物信息学中的应用研究[D];吉林大学;2011年
3 胡冉;十三种化合物诱导的小鼠原代培养肝细胞基因表达谱的聚类分析[D];第三军医大学;2005年
4 王琦;衰老进程基因表达水平上的时空特征及淫羊藿总黄酮的干预效果研究[D];复旦大学;2008年
5 刘太岗;机器学习方法在生物信息学中的应用[D];大连理工大学;2010年
6 王淑琴;机器学习方法及其在生物信息学领域中的应用[D];吉林大学;2009年
7 王更先;家蚕和棉铃虫若干lethal相关基因的克隆、表达及功能研究[D];苏州大学;2009年
8 庄晓峰;稻瘟病菌诱导水稻特异表达EST数据库的建立及相关基因鉴定[D];浙江大学;2003年
9 李伍举;基于基因表达谱的样本分型与分类研究[D];中国人民解放军军事医学科学院;2003年
10 汪世臣;拟南芥AtERFs家族DNA结合特性计算分析及其亚家族DREBs调节靶基因的预测[D];吉林大学;2008年
中国硕士学位论文全文数据库 前10条
1 段艳华;基于基因表达谱的肿瘤分类特征基因选择研究[D];北京工业大学;2008年
2 胡永钢;序列联配的算法比较与机器学习在其中的应用研究[D];江南大学;2005年
3 闵瑞隽;基于支持向量机的在全基因组范围内建立预测调控网络的研究[D];上海师范大学;2009年
4 张秋水;支持向量机在基因表达数据中的研究[D];厦门大学;2007年
5 王锐;信息熵在基因调控网络构建中的应用研究[D];第三军医大学;2008年
6 申晓敏;人胃癌耐药细胞系的建立及相关基因研究[D];天津医科大学;2005年
7 王爽;鼻咽低分化鳞状细胞癌分子分类的初步研究[D];第一军医大学;2004年
8 邱小明;不同转移潜能人大细胞肺癌细胞株基因表达谱变化的研究[D];四川大学;2007年
9 葛汝村;大鼠骨髓基质细胞诱导分化中相关基因表达谱的微阵列分析[D];山东大学;2005年
10 陆克中;基于机器学习的多聚脯氨酸二型结构预测[D];江南大学;2005年
中国重要报纸全文数据库 前10条
1 周颖;李梢:生物信息学为证候研究提供新视角[N];中国中医药报;2006年
2 周颖;寻找中医药研究新的切入点[N];中国中医药报;2006年
3 侯喆;生物信息学,医药领域显身手[N];医药经济报;2002年
4 本报记者 李恩青;生物信息学:促动BT与IT双赢[N];中国高新技术产业导报;2001年
5 刘义;生物信息学产业浮出水面[N];中国高新技术产业导报;2000年
6 英潮;生物信息学演绎“变脸”[N];中药报;2002年
7 中科院院士 强伯勤;生物信息学蕴有巨大效益[N];光明日报;2002年
8 白毅;加强生物信息学建设推动人类基因组研究[N];中国医药报;2002年
9 中国科学院院士 张春霆 郝柏林;生物信息学孕育大产业[N];经济日报;2000年
10 刘丽丽;高性能计算为生物信息学加速[N];计算机世界;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978