收藏本站
《大连理工大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

信息度量的蛋白质序列、结构、质谱数据研究

吴自凯  
【摘要】: 蛋白质是生命机体的基本组成成分,是连结分子运作和生物功能的主要组成部分,因此对蛋白质的研究有助于理解分子机理,更加清晰的了解生命活动的规则。目前,运用数学、信息学、计算机科学等学科的工具对蛋白质进行研究的生物信息学——蛋白质组学已经成为异常活跃的研究领域之一。 本文以信息论方法和优化方法为工具,以蛋白质序列、蛋白质结构、人体组织的蛋白质组为研究对象,以提取蛋白质序列、蛋白质结构、蛋白质组的可区分表达的特征信息为目的,主要针对蛋白质序列比较及其应用、蛋白质结构比较和质谱数据分类这三个方面进行了研究。本文的主要研究成果如下: 在第二章,首先针对蛋白质多序列比对问题,建立了多序列比对的整数规划模型,证明了该模型最优解的存在性,并且构造了优化算法用于求解该模型;根据氨基酸的亲疏水性质,构造出蛋白质磷酸化位点周围的亲水残基序列间隔分布来模拟磷酸化位点周围的物理化学环境,同时设计了预测磷酸化位点的算法;再者针对外膜蛋白和其他膜蛋白及球蛋白的区分问题,利用蛋白质的子序列分布和FDOD函数进行了研究,此方法在一些公用数据集上的分类精度高于已有的一些算法。 在第三章,主要研究了蛋白质结构比较问题。首先基于完全信息集的概念,提出了一种蛋白质结构描述方法——中心碳原子距离序列的子序列分布表示,并基于这种表示方法和FDOD函数,给出了一种蛋白质结构的偏差度量,并设计了一种蛋白质结构比较方法,应用该方法对一些公用数据集进行了聚类分析,取得了较好的聚类结果,表明了该方法的有效性。其次,用间隔为3的中心碳原子的距离分布来近似刻画蛋白质结构的局部几何,用中长程作用的线陛序列分布来刻画蛋白质结构的整体拓扑,给出了一种蛋白质折叠的几何-拓扑混合表示,并基于这种表示和FDOD函数,给出了一个蛋白质结构的偏差度量,设计了一种新的蛋白质结构比较方法和分类方法。应用这种方法对一些公用数据集进行了聚类分析和分类试验,取得了较好的聚类结果和分类结果,表明了该方法的有效性;最后,在功能预测实验平台上,基于蛋白质结构的接触向量表示,系统比较了FDOD函数、交叉熵和欧式距离三种度量,试验结果表明:FDOD函数更适合于度量接触向量表示之间的偏差。 在第四章,以人体组织的蛋白质组为研究对象,应用基于FDOD方法的分类器对癌症病人和良性携带者的蛋白质质谱数据进行了分类,分类精度令人满意;以分类精度高且使用的特征少为目标,建立了质谱数据特征选择问题的多目标规划模型,将该多目标规划模型转化为了一个单目标规划模型,并简单分析了该模型最优解的存在性。
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:Q51-3

【引证文献】
中国硕士学位论文全文数据库 前1条
1 时冲;蛋白质质谱数据挖掘方法研究[D];南京理工大学;2011年
【参考文献】
中国期刊全文数据库 前10条
1 刘军,许甫荣;基于相对熵原理构建生物进化系统树[J];北京大学学报(自然科学版);2003年S1期
2 马晓红,杜晓辉,孔祥维;一种利用模糊神经网络对癌症进行分类的方法[J];大连理工大学学报;1999年06期
3 张文;唐焕文;方伟武;蔡旭;张伟伟;;基于全蛋白质组的微生物系统发育树构建[J];大连理工大学学报;2005年06期
4 卢本卓,王存新,王宝翰;用于真实蛋白质结构预测的一种新的优化方法[J];化学物理学报;2003年02期
5 刘贇,王宝翰,王存新,陈慰祖;基于相对熵的蛋白质设计新方法[J];中国科学G辑:物理学、力学、天文学;2003年04期
6 王晶;卫金茂;由军平;;支持向量机及其在癌症诊断中的应用[J];计算机工程与应用;2005年36期
7 张文,唐焕文,方伟武,修志龙;信息离散性度量方法在SARS病毒研究中的应用[J];计算机与应用化学;2003年06期
8 蔡旭,方伟武,张文;基于线粒体全基因组的非比对方法比较[J];计算机与应用化学;2005年10期
9 苏计国;王宝翰;焦雄;陈慰祖;王存新;;基于HNP三态模型及相对熵方法的蛋白质折叠研究[J];生物化学与生物物理进展;2006年05期
10 高智勇,龚健雅,秦前清,林家瑞;支持向量机在早期癌症检测中的应用[J];生物医学工程学杂志;2005年05期
中国博士学位论文全文数据库 前2条
1 宋杰;生物信息数据挖掘中的若干方法及其应用研究[D];大连理工大学;2005年
2 张敏;生物信息学中多序列比对等算法的研究[D];大连理工大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 郭苗莉,朱江波,陈蓉芳,张天宝;应用基因表达谱芯片研究MNNG诱致小鼠胚胎畸形肢体基因表达的变化[J];癌变.畸变.突变;2005年02期
2 王朝霞;生物信息学:一门前沿交叉学科[J];安徽教育学院学报;2002年06期
3 王建平;柴立和;;蛋白质分子网络的分形结构[J];安徽农业科学;2007年06期
4 张树林;何德;朱高浦;刘杰;莫鹏巧;;生物信息学在农业上的应用[J];安徽农业科学;2007年22期
5 吉冬梅;;酵母基因表达调控关系的构建及其统计特性分析[J];安徽农业科学;2009年10期
6 王晓波;解天然;潘陈陈;华宿南;;大豆质膜内在水孔蛋白的生物学功能预测[J];安徽农业科学;2010年34期
7 蔡渡江;王联结;;基于电子效应的氨基酸分类与二级结构的倾向性分析[J];安徽农业科学;2010年36期
8 曹素兵;朱婵;;RNA二级结构遗传预测算法中的选择操作研究[J];安徽农业科学;2011年14期
9 付明哲;王联结;刘选治;;α-螺旋中2,3位氨基酸残基对螺旋结构稳定性的影响[J];安徽农业大学学报;2011年06期
10 李显勇;李燕雏;尹卫华;张凌燕;;“仿生内控”治疗晚期癌症的临床应用报告[J];癌症进展;2008年03期
中国重要会议论文全文数据库 前8条
1 庄绪静;曹雅忠;李克斌;尹姣;;同源建模和分子对接方法的应用与发展[A];植保科技创新与病虫防控专业化——中国植物保护学会2011年学术年会论文集[C];2011年
2 栾德琴;常国斌;陈国宏;;隐性白鸡不同时期肌肉组织生长相关基因的表达谱分析[A];安全优质的家禽生产——第十五次全国家禽学术讨论会论文集[C];2011年
3 张文;方伟武;唐焕文;蔡旭;;基于信息离散性度量方法的微生物全蛋白质组的系统发育分析[A];中国运筹学会第七届学术交流会论文集(中卷)[C];2004年
4 宋杰;唐焕文;;基于支持向量机方法的同源寡聚蛋白质分类[A];中国运筹学会第七届学术交流会论文集(下卷)[C];2004年
5 陈宁涛;王能超;施保昌;;生物多序列比对的并行算法[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
6 张国文;陈秀霞;;牛蒡苷与人血清白蛋白的相互作用[A];2009年中国农业工程学会农产品加工及贮藏工程分会学术年会论文集[C];2009年
7 许龙飞;段敏;陈孝卫;冉丽;朱婵;;生物DNA序列比对算法研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 张天;李祥龙;周荣艳;李兰会;任玉红;赵驻军;;不同物种Oct-1基因编码区生物信息学分析[A];中国畜牧兽医学会养羊学分会2012年全国养羊生产与学术研讨会议论文集[C];2012年
中国博士学位论文全文数据库 前10条
1 王冰;降解丝素放线菌的分离鉴定、发酵条件优化及其降解机制研究[D];山东农业大学;2009年
2 贺厚光;双调控溶瘤腺病毒携带超抗原SEA基因治疗前列腺癌基础研究[D];苏州大学;2010年
3 郭新军;拟黑多刺蚁肌细胞增强因子2与肌钙蛋白Ⅰ亚基基因的克隆及其在发育中的表达研究[D];陕西师范大学;2010年
4 龙海侠;进化算法及其在生物信息中的应用[D];江南大学;2010年
5 杨凡;生物序列分析中若干问题的研究[D];电子科技大学;2011年
6 程敬丽;源自内生真菌的倍半萜类新颖高效抑菌化合物的衍生合成与生物活性研究[D];浙江大学;2010年
7 包梅荣;油茶种子成熟调控蛋白基因的分离克隆及功能研究[D];中南林业科技大学;2010年
8 陈欣;蛋白质在不同界面的识别、吸附及稳定性研究[D];浙江大学;2009年
9 顾全;基于集成智能的膜蛋白受体结构与功能研究[D];东华大学;2010年
10 周晖;自由搜索算法及其在传感器网络中的应用[D];东华大学;2010年
中国硕士学位论文全文数据库 前10条
1 张艳萍;蛋白质序列的数学描述及其应用[D];浙江理工大学;2010年
2 郑碧;家蚕小热休克蛋白22.6的克隆表达与功能初步分析[D];浙江理工大学;2010年
3 庄文华;家蚕ras oncogene (Bras2)的表达、纯化以及特性分析[D];浙江理工大学;2010年
4 马良;家蚕BmIBP基因的原核表达及其亚细胞定位研究[D];浙江理工大学;2010年
5 李婷婷;家蚕BmNADHb5的表达分析及其亚细胞定位[D];浙江理工大学;2010年
6 刘靓珏;家蚕RPA43相关基因(BmRPA43 N)的克隆表达及定位分析[D];浙江理工大学;2010年
7 张书春;数据挖掘技术在SMS系统中的应用研究[D];郑州大学;2010年
8 张伟;分子光谱法研究蛋白质与小分子的相互作用及其分析方法研究[D];郑州大学;2010年
9 史舵;基于主成分分析方法的蛋白质亚细胞定位[D];大连理工大学;2010年
10 兰任;基于并行混合粒子群算法的蛋白质结构预测[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前4条
1 曾嵘,夏其昌;蛋白质组学研究进展与趋势[J];中国科学院院刊;2002年03期
2 李义峰;刘毅慧;;基于模拟退火算法的高分辨率蛋白质质谱数据特征选择[J];生物信息学;2009年02期
3 王昭鑫;刘毅慧;;主元余像集主成分分析在蛋白质质谱数据中的应用[J];生物信息学;2009年03期
4 汤乐民,李敏;基于小波变换的医学图像去噪声处理[J];中国医学物理学杂志;2004年04期
中国硕士学位论文全文数据库 前2条
1 李义峰;基于优化算法的蛋白质质谱数据分析[D];山东轻工业学院;2009年
2 吴琴琴;基于DNA序列的功能位点识别[D];苏州大学;2010年
【二级引证文献】
中国期刊全文数据库 前1条
1 梁冰苑;昂清;王卫东;;质谱分析的生物信息学方法及其对比分析[J];中国医疗器械杂志;2012年05期
【二级参考文献】
中国期刊全文数据库 前10条
1 龚道雄,阮晓钢;一种基于遗传算法的DNA多序列比对方法[J];北京工业大学学报;2003年01期
2 张敏;生物序列比对算法研究现状与展望[J];大连大学学报;2004年04期
3 沈世镒;多重序列比对Alignment的信息度量准则[J];工程数学学报;2002年04期
4 郭卫斌,施保昌,王能超;多重生物序列对准及其算法综述[J];高技术通讯;2001年06期
5 陈莹,王能超;多序列比对的两种新方法[J];河海大学学报(自然科学版);2004年02期
6 卢本卓,王存新,王宝翰;用于真实蛋白质结构预测的一种新的优化方法[J];化学物理学报;2003年02期
7 袁激光,金人超,李红涛;基于A~*算法的启发式算法求解多序列比对问题[J];华中科技大学学报(自然科学版);2003年09期
8 张法,乔香珍,刘志勇;基于Smith-Waterman算法的并行分而治之生物序列比对算法[J];中国科学E辑:技术科学;2004年02期
9 田盛丰,黄厚宽;基于支持向量机的数据库学习算法[J];计算机研究与发展;2000年01期
10 陈恩红,王清毅,蔡庆生;基于决策树学习中的测试生成及连续属性的离散化[J];计算机研究与发展;1998年05期
【相似文献】
中国期刊全文数据库 前10条
1 朱平;管维红;高雷;徐振源;;基于氨基酸特征序列的蛋白质结构分析[J];生物信息学;2008年03期
2 史小红;贾新娟;王燕;;基于Hamilton路模型的蛋白质结构预测的研究[J];数学的实践与认识;2009年22期
3 李炜疆;;蛋白质序列与二级结构的统计关联[J];内蒙古大学学报(自然科学版);1991年02期
4 刘全;生物信息数据库(续一)[J];中国兽医学报;2002年05期
5 管维红;张立婷;徐振源;朱平;;蛋白质序列混沌特性的研究[J];生物信息学;2008年04期
6 李丹丹;王俊;李春;;蛋白质序列的一种新的三维图形表示及其应用[J];生物信息学;2009年01期
7 赵钦一;;蛋白质折叠的不可逆热力学理论与能级相图理论[J];生命的化学;2010年03期
8 赵伟;王晓磊;何欣欣;;残基相关性及其在系统发育分析中的应用[J];黑龙江生态工程职业学院学报;2011年01期
9 肖前军;周金玉;邓总纲;;蛋白质序列混沌游戏表示模拟效果的优化[J];汕头大学学报(自然科学版);2010年01期
10 刘丽平;李昂;连森阳;王光瑛;吴旭;;自组织映射神经网络在生物信息学中的应用[J];中国家禽;2011年06期
中国重要会议论文全文数据库 前10条
1 李通化;孙江明;李大鹏;唐胜男;丛培盛;;从蛋白质序列到结构和功能[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
2 牛丹云;朱清新;;基于模式驱动和模糊查询的模式发现方法[A];第15届全国信息存储技术学术会议论文集[C];2008年
3 包永明;卜鹏程;金礼吉;杨巍;安利佳;;长白山白眉蝮蛇蛇毒新磷脂酶A_2同源物的表征[A];中国的遗传学研究——中国遗传学会第七次代表大会暨学术讨论会论文摘要汇编[C];2003年
4 谢建平;徐建平;陆飞;;浅论申请蛋白质序列专利的权利要求范围[A];中国生物工程学会第三次全国会员代表大会暨学术讨论会论文摘要集[C];2001年
5 肖奕;;蛋白质序列的对称性[A];第十次中国生物物理学术大会论文摘要集[C];2006年
6 光宣敏;郭延芝;李梦龙;汪夏;;支持向量机预测蛋白质序列中胱氨酸氧化还原态[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
7 熊文炜;李通化;;生物信息统计预测中新编码方法的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
8 郭延芝;余乐正;李梦龙;;利用蛋白质序列信息预测蛋白质相互作用[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
9 潘峰;王宇航;;人表皮生长因子受体家族蛋白序列的同源性分析[A];2007年浙江省肿瘤外科学术年会暨温州医学会肿瘤分会第四届年会论文汇编[C];2007年
10 李文辉;金杨;曾琳;张云;;眼镜蛇科蛇毒L-氨基酸氧化酶的分子特征[A];第八届中国生物毒素学术研讨会论文摘要[C];2007年
中国重要报纸全文数据库 前10条
1 肖恩·B·卡罗尔尼古拉斯·格姆培尔 本杰明·普鲁德赫姆 张红超 编译;动物形态迥异之谜[N];第一财经日报;2008年
2 胡德荣;蛋白质相互作用网络预测新方法被发现[N];健康报;2007年
3 记者 耿挺;蛋白质功能算出来[N];上海科技报;2007年
4 张亚东;“交点”上的舞蹈[N];计算机世界;2002年
5 闻业;机会:专利多到期 靶标无保护[N];中国医药报;2007年
6 张荔子;生物医药技术水平需要提高[N];健康报;2006年
7 荐文;专利保护什么[N];医药经济报;2001年
8 长江证券 段炼炼;双鹭药业处快速发展的关键阶段[N];证券时报;2006年
9 陈海萍 编译;Bio2003的悬疑[N];21世纪经济报道;2003年
10 本报驻京记者 江世亮;迎接生物数学时代的到来[N];文汇报;2002年
中国博士学位论文全文数据库 前10条
1 林卫中;蛋白质序列离散灰色模型及其在药物开发中的应用研究[D];东华大学;2013年
2 徐海松;蛋白质序列中的折叠和去折叠信息[D];北京工业大学;2011年
3 王栋;蛋白质序列的并行分类方法研究[D];天津大学;2010年
4 顾斐;蛋白质若干结构预测问题研究及其软件实现[D];浙江大学;2009年
5 姚玉华;生物序列相似性分析的图形表示及其不变量方法[D];大连理工大学;2006年
6 于涛;蛋白质的结构特征及氯通道蛋白质的离子输运特性研究[D];武汉大学;2009年
7 史明光;蛋白质相互作用预测方法的研究[D];中国科学技术大学;2009年
8 李斌;LZ复杂性算法及其在生物序列分析中的应用研究[D];中南大学;2008年
9 唐东明;聚类分析及其应用研究[D];电子科技大学;2010年
10 王艳春;基于GEP和ANN的蛋白质二级结构预测方法研究[D];西北农林科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 张堃;基于粒度下的蛋白质序列的分析[D];江南大学;2011年
2 钱盼盼;蛋白质序列新的表示方法[D];山东大学;2011年
3 张艳萍;蛋白质序列的数学描述及其应用[D];浙江理工大学;2010年
4 于祥田;蛋白质序列相似性分析[D];山东大学;2011年
5 贺晓梅;蛋白质序列特征表达及其在亚细胞定位预测中的应用[D];湖南大学;2012年
6 胡清铭;蛋白质序列特征提取及其在亚细胞定位中的应用[D];湖南大学;2013年
7 王林春;基于序列编码的蛋白质亚细胞定位及相互作用研究[D];湖南大学;2013年
8 廖本友;蛋白质序列图形表达方法及应用研究[D];湖南大学;2011年
9 赵志文;关于多重局部序列比对的超先验分布模型和Gibbs抽样策略下的分层Bayes方法[D];吉林大学;2004年
10 张鸣;蛋白质折叠的简化模型[D];华中科技大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026