收藏本站
《上海大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

基于数据挖掘技术的蛋白质功能预测研究

孙承磊  
【摘要】:随着人类进入后基因组时代,以蛋白质组为研究对象的蛋白质组学越来越受到关注并且得到了迅速的发展。蛋白质是细胞的重要组成部分,是生命活动的执行者。蛋白质在细胞中有着十分重要的功能,包括组成器官、催化生化反应、接受与传递细胞信号、维护细胞环境等。然而,蛋白质的功能注释目前仍不完整,尤其对于高等生物有相当一部分蛋白质的功能是不明确的。用传统的实验方法去确定蛋白质的功能周期长、代价高昂,而且无法从蛋白质组这一整体层面去考虑。新兴的高通量技术产生了海量的蛋白质组学数据,使得用计算的方法来研究蛋白质的功能成为可能。本文基于数据挖掘技术,利用了高通量技术产生的大量蛋白质表达质谱数据、蛋白质氨基酸序列、蛋白质相互作用等蛋白质组学数据,针对蛋白质的功能预测这一问题进行了深入研究,具体内容如下: 1)构建了一个崭新的禾谷镰孢菌(Fusarium graminearum)蛋白质亚细胞定位(subcellular localizations)预测模型FGsub。我们收集并整理了一个非冗余的真菌亚细胞定位信息数据集。一方面,基于蛋白质的氨基酸序列信息,通过特征提取、特征选择,使用支持向量机,结合多种特征向量,构建了一个能够预测禾谷镰孢菌蛋白质亚细胞位置的集成分类器。另一方面,用BLAST序列比对在数据集与禾谷镰孢菌蛋白质之间来查找同源蛋白,利用同源蛋白的信息对禾谷镰孢菌蛋白质亚细胞位置进行预测。对于数据不平衡的处理,我们还提出了一种新的平衡算法。该模型基于蛋白质的氨基酸序列使用了数据挖掘的多种技术对禾谷镰孢菌蛋白质亚细胞定位进行了精确的预测,丰富了禾谷镰孢菌蛋白质的功能注释,并为研究禾谷镰孢菌作为病原真菌的侵染机制提供了必要和可靠的信息。 2)提出了一种预测蛋白质谷胱甘肽化(Protein S-Glutathionylation)位点的新颖模型。针对蛋白质翻译后修饰谷胱甘肽化的预测,首先,我们通过文本挖掘的方法建立了一个蛋白质谷胱甘肽化数据库。然后,我们基于谷胱甘肽化位点两侧的氨基酸序列信息,通过特征提取、特征选择,使用机器学习的方法构建了预测蛋白质谷胱甘肽化位点的模型。另外,我们从蛋白质的结构信息出发,利用了统计的方法对蛋白质谷胱甘肽化的机制进行了讨论。该模型可以对蛋白质谷胱甘肽化位点进行有效预测。该预测模型还能够筛选出关于蛋白质谷胱甘肽化位点的重要特征,这些特征为我们研究蛋白质谷胱甘肽化的发生和调控机制提供了有用的信息。 3)提出了一种新的蛋白质磷酸化(Protein phosphorylation)网络构建模型。基于蛋白质表达数据、蛋白质磷酸化表达数据、蛋白质相互作用数据和已有的先验信息,提出了一种蛋白质磷酸化底物与磷酸激酶的全新概率模型。我们先构建了一个总体的磷酸化网络,然后根据蛋白质表达的组织特异性分别构建了人体三个组织的特异性磷酸化网络并筛选出了组织特异性的磷酸化关系。我们还对三个组织特异性磷酸化网络的功能进行验证,结果表明这些网络可以反映对应组织特有的生物功能,这也证明了我们构建的组织特异性磷酸化网络有相当的可靠性和生物意义。
【关键词】:数据挖掘 蛋白质功能 亚细胞定位 谷胱甘肽化 磷酸化
【学位授予单位】:上海大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:Q51
【目录】:
  • 摘要6-8
  • ABSTRACT8-10
  • 目录10-12
  • 第一章 绪论12-34
  • 1.1 蛋白质组学12-14
  • 1.2 蛋白质功能预测14-19
  • 1.3 数据挖掘19-31
  • 1.3.1 特征提取22-25
  • 1.3.2 特征选择25-28
  • 1.3.3 支持向量机28-31
  • 1.4 论文的主要研究内容31-34
  • 第二章 禾谷镰孢菌蛋白质亚细胞定位的预测34-56
  • 2.1 引言34-36
  • 2.2 数据与方法36-44
  • 2.2.1 数据来源36-38
  • 2.2.2 基于氨基酸组成的特征提取和特征选择38-40
  • 2.2.3 训练集不平衡的处理40-41
  • 2.2.4 集成分类器的构建41-43
  • 2.2.5 序列比对43-44
  • 2.2.6 富集分析方法44
  • 2.3 结果与讨论44-52
  • 2.3.1 集成分类器的性能44-48
  • 2.3.3 亚细胞定位预测结果48-50
  • 2.3.4 预测结果的验证50-52
  • 2.4 本章小结52-56
  • 第三章 蛋白质谷胱甘肽化的预测56-76
  • 3.1 引言56-58
  • 3.2 数据与方法58-63
  • 3.2.1 数据集58-59
  • 3.2.2 从蛋白质序列中提取特征59-63
  • 3.2.2.1 基于氨基酸物理化学性质的特征提取59-61
  • 3.2.2.2 基于序列 profile 的特征提取61
  • 3.2.2.3 基于氨基酸组成的特征提取61-63
  • 3.2.3 预测模型的建立63
  • 3.3 预测结果分析63-69
  • 3.4 结构特征分析69-74
  • 3.5 本章小结74-76
  • 第四章 组织特异性磷酸化网络的构建76-90
  • 4.1 引言76-78
  • 4.2 数据与方法78-81
  • 4.2.1 数据来源78-80
  • 4.2.2 磷酸激酶与蛋白质模体相互作用识别80
  • 4.2.3 磷酸激酶与蛋白质底物相互作用预测80-81
  • 4.3 结果与讨论81-87
  • 4.3.1 磷酸化网络的构建81-82
  • 4.3.2 组织特异性磷酸化网络82-85
  • 4.3.3 磷酸化网络的功能验证85-87
  • 4.4 本章小结87-90
  • 第五章 结论与展望90-94
  • 5.1 结论90-91
  • 5.2 展望91-94
  • 参考文献94-104
  • 作者在攻读博士学位期间公开发表的论文104-106
  • 作者在攻读博士学位期间参与的项目106-108
  • 致谢108

【共引文献】
中国期刊全文数据库 前10条
1 王全凤;郑浩;;基于径向基函数神经网络的高层建筑结构选型[J];四川建筑科学研究;2010年05期
2 张根耀,李竹林,赵宗涛;遮挡情况下运动目标的跟踪[J];安徽大学学报(自然科学版);2003年03期
3 庄振华;王年;李学俊;梁栋;王继;;癌症基因表达数据的熵度量分类方法[J];安徽大学学报(自然科学版);2010年02期
4 陈乐;王年;苏亮亮;王蕊平;;基于邻接谱主分量分析的肿瘤分类方法[J];安徽大学学报(自然科学版);2011年04期
5 叶爱霞;王年;苏亮亮;;基于非负矩阵分解和Normal_Matrix的肿瘤基因分类[J];安徽大学学报(自然科学版);2012年03期
6 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
7 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
8 陈弋兰;王鸣;孙书诚;;朴素贝叶斯分类器的误差估计[J];安徽工程科技学院学报(自然科学版);2008年04期
9 张红涛;胡玉霞;张恒源;顾波;;储粮害虫图像识别中的特征压缩研究[J];安徽农业科学;2008年27期
10 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
4 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
5 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
6 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
7 梁禹;王义刚;王娜;;基于支持向量机的电力电子电路故障诊断[A];第二十六届中国控制会议论文集[C];2007年
8 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
9 刘华;张建华;王娆芬;王行愚;;人机系统操作员功能状态的模糊聚类方法[A];第二十九届中国控制会议论文集[C];2010年
10 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
3 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
4 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
5 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
6 乔小燕;基于生物形态学的赤潮藻显微图像分割与特征提取研究[D];中国海洋大学;2010年
7 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
8 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
9 章鹏;多尺度特征检测:方法和应用研究[D];中国科学技术大学;2010年
10 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
中国硕士学位论文全文数据库 前10条
1 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
2 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
3 廖甜甜;白细胞图像语义识别分类的研究[D];南昌航空大学;2010年
4 黄正荣;基于振动波的高速公路车辆行驶状态辨识理论研究[D];南昌航空大学;2010年
5 刘棉;人机划拳系统的实现[D];山东科技大学;2010年
6 刘桂珍;颅骨三维重建与信息提取[D];山东科技大学;2010年
7 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
8 张海峰;空间三维信息重构与飞行器路径规划[D];山东科技大学;2010年
9 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
10 陈楠楠;互动音乐桌[D];山东科技大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 魏鑫;李海霞;陈卫卫;陈镇;曾汉来;;植物蛋白质磷酸化的研究技术[J];植物生理学通讯;2009年09期
2 严冬梅;李洪;;磷酸化蛋白质检测技术研究进展[J];泸州医学院学报;2006年05期
3 张筱丹;;Web文本挖掘的研究[J];科技信息;2009年04期
4 陈智勤;黄剑辉;;基于数据挖掘技术的核心客户的识别[J];福建师范大学学报(自然科学版);2007年04期
5 姜建成,冷欣夫;溴氰菊酯对鼠脑蛋白质磷酸化作用的影响[J];科学通报;1987年22期
6 赵跃;佘诗武;;基于Web内容挖掘技术的应用研究[J];科技情报开发与经济;2008年36期
7 于秉治;;蛋白质磷酸化酶[J];生命的化学;1984年04期
8 Stanley J.Roux;Randy O.Wayne;Neeraj Datta;黄祥辉;;钙离子在光敏素反应中的作用:新进展[J];植物生理学通讯;1988年03期
9 姜建成,冷欣夫;溴氰菊酯对鼠脑蛋白质磷酸化作用的影响[J];中国生物化学与分子生物学报;1989年05期
10 宋晓玲;;大型指纹数据库自动识别系统设计[J];科技信息;2010年31期
中国重要会议论文全文数据库 前10条
1 马洪杰;曲晓飞;;数据挖掘技术和过程的特点[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
2 戈欣;吴晓芬;许建荣;;数据挖掘技术在放射科医疗管理中的潜在作用[A];2009中华医学会影像技术分会第十七次全国学术大会论文集[C];2009年
3 黄建华;曹东升;严军;许青松;梁逸曾;;人类G蛋白偶联受体磷酸化位点识别网络平台[A];中国化学会第28届学术年会第14分会场摘要集[C];2012年
4 魏元珍;杨沂凤;;数据挖掘技术及其在数字图书馆中的应用[A];网络信息资源的搜集与应用——全国高校社科信息资料研究会第十次年会论文集[C];2004年
5 肖健;沈彩霞;;浅谈数据挖掘技术现状[A];广西计算机学会2008年年会论文集[C];2008年
6 巩耀亮;邱晓东;孙丽君;李树强;;数据挖掘技术在企业竞争情报系统中的应用研究[A];信息时代——科技情报研究学术论文集(第三辑)[C];2008年
7 王洪锋;;数据挖掘在客户关系管理中的应用研究[A];河南省通信学会2005年学术年会论文集[C];2005年
8 姚小磊;彭清华;;数据挖掘技术在中医眼科应用的设想[A];中华中医药学会第七次眼科学术交流会论文汇编[C];2008年
9 张婧;;数据挖掘技术在进销存系统中的应用[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
10 杨利军;勾学荣;;数据挖掘在移动客户流失预测中的研究和应用[A];2008年中国高校通信类院系学术研讨会论文集(上册)[C];2009年
中国重要报纸全文数据库 前10条
1 永霖;药物性肝病“克星”———谷胱甘肽[N];大众卫生报;2005年
2 陈晓 山西财经大学教师;数据挖掘技术在高校教学管理中的应用[N];山西经济日报;2010年
3 蔡德山;谷胱甘肽市场前景光明[N];中国医药报;2011年
4 特约撰稿 蔡德山;国产谷胱甘肽的美好时光[N];医药经济报;2011年
5 通讯员刘骁;谷胱甘肽可增强人体免疫力[N];科技日报;2003年
6 记者 吕贤如;大力加强数据挖掘技术研究应用[N];光明日报;2006年
7 主持人 李禾;数据挖掘技术如何驱动经济车轮[N];科技日报;2007年
8 首之;数据挖掘并不神秘[N];金融时报;2006年
9 ;IBM公司推出新型数据挖掘技术[N];中国高新技术产业导报;2001年
10 刘红岩、何军;利用数据挖掘技术获得商业智能[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 孙承磊;基于数据挖掘技术的蛋白质功能预测研究[D];上海大学;2013年
2 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年
3 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年
4 孙真真;基于光学区雷达目标二维像的目标散射特征提取的理论及方法研究[D];中国人民解放军国防科学技术大学;2001年
5 武子玉;矿物近红外光谱信息提取及应用研究[D];吉林大学;2005年
6 王承;基于神经网络的模拟电路故障诊断方法研究[D];电子科技大学;2005年
7 张旗;基于属性的图像分类研究[D];大连海事大学;2005年
8 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年
9 陈晓娟;模拟电路神经网络故障诊断方法的研究[D];吉林大学;2006年
10 苏彩红;墙地砖质量自动检测技术的研究[D];华南理工大学;2004年
中国硕士学位论文全文数据库 前10条
1 苏满秀;多肽/蛋白质序列特征提取及其应用[D];湖南农业大学;2012年
2 崔园;数据挖掘在中文病历中的应用[D];电子科技大学;2008年
3 赵智超;基于数据挖掘的沙尘暴智能预报系统的研究[D];天津大学;2005年
4 刘完芳;入侵检测系统的特征提取方法研究及其实现[D];湖南大学;2007年
5 杨生友;聚类分析在医学图像中的应用[D];兰州大学;2009年
6 张俊;基于数据挖掘的无线传感器网络若干问题研究[D];上海交通大学;2007年
7 曾祥利;小波分析在科学数据挖掘中的应用研究[D];电子科技大学;2006年
8 吴卉男;基于数据挖掘技术的入侵检测研究[D];贵州大学;2007年
9 梁娜;基于数据挖掘的火电厂故障诊断研究[D];华北电力大学(河北);2007年
10 曾红梅;情绪图片视觉诱发EEG特征提取与分析[D];天津大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026