收藏本站
《武汉大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于机器学习的蛋白质结合位点特征化和预测方法研究

熊毅  
【摘要】:随着人类基因组和许多其它物种基因组序列测序计划的成功完成,不断增长的基因组序列数据提供了数百万条蛋白质的编码信息。作为遗传信息的体现者,蛋白质是最主要的生命活动过程的载体和功能执行者。在生物体细胞中,蛋白质是通过与其它生物分子相互作用来完成特定的功能,但直接参与了与其它生物分子相互作用的残基只占有蛋白质上的一部分,这些结合位点对实现蛋白质的功能显得十分重要。因此,分析和识别蛋白质-其它分子结合位点成为研究蛋白质功能实现机制的基础。 近十年来,研究者开始关注利用计算方法预测蛋白质上的功能残基,特别是基于机器学习的预测方法,从蛋白质的序列或结构信息出发预测功能残基。本文使用氨基酸属性来探讨蛋白质结合不同类型分子的结合位点的理化特征的共性和特性,并在此基础上提出了预测蛋白质与其它类型分子的结合位点(如血红素结合位点)的分类方法,然后主要从蛋白质的三维结构和拓扑结构信息出发设计出有效的特征和特征表示方法来描述和预测DNA结合残基。全文主要的研究内容概括如下: 1.利用氨基酸理化属性对蛋白质与不同类型分子(蛋白质,DNA/RNA和血红素分子)结合位点的特异性特征进行分析,并提出了从序列信息预测血红素结合位点的分类方法。本工作首先从最简单直观却有着高解释性的理化特征出发,分析了蛋白质结合不同类型分子的结合位点的相关的理化特征,结果表明不同类型结合分子的结合位点具有不同的性质。然后,我们提出了一种简单直观的特征选择方法和整合序列谱编码方案,实现了基于整合序列谱预测血红蛋白的结合位点的新方法。在训练集上的交叉验证和测试集上的独立验证结果均表明了我们的方法与文献中已有报道的结果相比,在预测精度上得到了较大的提高。 2.DNA结合残基预测模型中的特征设计与分析。本工作首先构建了基准数据集,该数据集整合了蛋白质绑定DNA前后的结构数据,然后引入了新的结构特征包括温度因子、包装密度和拓扑结构特征来描述DNA绑定蛋白和对应的非绑定蛋白上的结合残基,利用新特征对结合残基的分析结果能给分子生物学家提供有用的信息。 3.提出了基于特征降维策略的DNA结合残基预测模型。在我们前面工作中对DNA结合残基的特征设计和分析的基础上,进一步提出了权值因子来定量描述周围氨基酸对中心氨基酸依赖距离的贡献,然后通过提取表面补缀上的加权平均特征进行特征降维,在此基础上实现了基于加权平均的降维特征集预测DNA结合残基的新方法,实验结果表明,本章提出的新方法相比现有文献中的机器学习方法更有更高的效率和预测精度,同时该方法中提出的加权平均的降维策略可以扩展应用到其它类型的结合残基预测研究中。
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP181;Q51

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前1条
1 王荣;配基的杂泛性的机制分析[D];华中农业大学;2014年
【参考文献】
中国博士学位论文全文数据库 前2条
1 刘融;蛋白质相互作用及其位点的特征分析与预测[D];华中科技大学;2009年
2 夏俊峰;蛋白质相互作用及其结合面热点残基的预测方法研究[D];中国科学技术大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 蔡坤琪;;基于相关鉴别分析和随机森林的人脸识别方法[J];安徽电子信息职业技术学院学报;2012年01期
2 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
3 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
4 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
5 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
6 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
7 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
8 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
9 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
10 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
3 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
4 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
5 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
6 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
7 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年
8 常俊林;魏巍;梁君燕;;基于支持向量机的SURF改进算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年
9 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中国自动化学会控制理论专业委员会D卷[C];2011年
10 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
4 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
5 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
6 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
7 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
8 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
9 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
10 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 马冉冉;集成学习算法研究[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
5 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
6 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
7 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
8 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年
9 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
10 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前3条
1 于晓丽;;蛋白质结构分类数据库[J];重庆理工大学学报(自然科学版);2010年11期
2 郭宗儒;;药物的杂泛性[J];药学学报;2011年04期
3 郭宗儒;;老药在药物设计中的应用[J];中国药物化学杂志;2010年03期
中国博士学位论文全文数据库 前3条
1 胡敏;蛋白质结构的空间分布特征研究[D];浙江大学;2008年
2 邱智军;蛋白质结合位点预测方法研究与应用[D];大连理工大学;2012年
3 郭菲;蛋白质结合位点和复合体构象预测方法的研究[D];山东大学;2012年
【二级参考文献】
中国期刊全文数据库 前3条
1 周鹏;田菲菲;李波;吴世容;李志良;;一种基于遗传算法的肽/蛋白质结合模式虚拟筛选建模技术[J];化学学报;2006年07期
2 王文馨;陈宇光;石铁流;;异源蛋白质相互作用数据整合算法的进展[J];生命科学;2008年05期
3 朱新宇,沈百荣;预测蛋白质间相互作用的生物信息学方法[J];生物技术通讯;2004年01期
中国博士学位论文全文数据库 前3条
1 王兵;蛋白质相互作用及其位点的预测方法研究[D];中国科学技术大学;2006年
2 刘昆宏;多分类器集成系统在基因微阵列数据分析中的应用[D];中国科学技术大学;2008年
3 史明光;蛋白质相互作用预测方法的研究[D];中国科学技术大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 吕建;徐家福;;软件自动化的智能化途径[J];科学通报;1993年02期
2 胡俊翘,胡友兰,李德群;改进的基因遗传算法在专家系统机器学习中的应用[J];计算机辅助工程;1994年01期
3 阎明印,栾江南,杨叔子;具有学习功能的机械设备智能诊断系统[J];沈阳工业学院学报;1997年04期
4 高阳;周志华;孙晨;陈兆乾;陈世福;;从FTART网络中抽取if-then规则[J];模式识别与人工智能;1999年04期
5 吴艳;刘建波;;电子邮件自动处理的用户模型设计[J];沈阳化工学院学报;2005年04期
6 胡彩霞;;利用决策树获取搜索结果页面中的匹配数[J];科技咨询导报;2007年06期
7 刘星毅;农国才;;几种不同缺失值填充方法的比较[J];南宁师范高等专科学校学报;2007年03期
8 鲁晓南;接标;;一种基于个性化邮件特征的反垃圾邮件系统[J];计算机技术与发展;2009年08期
9 王存睿;文晋;;基于人脸检测的教室信息智能采集系统[J];大连民族学院学报;2009年05期
10 阎巍;;基于决策树的软件项目估算方法[J];计算机工程与科学;2009年08期
中国重要会议论文全文数据库 前10条
1 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
2 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 谢世朋;胡茂林;;基于局部仿射区域对稀疏纹理分类的研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
5 张郴;;基于神经网络集成的旅游需求预测模型[A];中国地理学会百年庆典学术论文摘要集[C];2009年
6 吴宪祥;于培松;万旻;倪伟;郭宝龙;;RoboCup中智能体的参数优化和学习[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
7 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
8 杨磊;黎志成;胡斌;;基于人工神经网络的调度规则确定专家系统[A];第七届计算机模拟与信息技术学术会议论文集[C];1999年
9 张燕;张付志;;跨系统个性化服务方法和用户模型研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
10 陈时敏;韩心慧;;基于机器学习的网页木马识别方法研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
2 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
3 记者 何边;网络化激活人工智能[N];计算机世界;2001年
4 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 傅秋瑛;默默耕耘数十载 自主创新结硕果[N];科技日报;2006年
7 王育昕吴红梅;高水平原创性科技成果大量涌现[N];新华日报;2008年
8 冯卫东;科技将这样改变我们的生活[N];科技日报;2008年
9 杰逊;微软的第一个搜索技术掌门[N];中国计算机报;2006年
10 记者 刘垠;首届中美视觉夏令营开营[N];大众科技报;2009年
中国博士学位论文全文数据库 前10条
1 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年
2 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
3 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
4 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
5 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
6 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
7 钟志;基于异常行为辨识的智能监控技术研究[D];上海交通大学;2008年
8 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
9 徐海祥;基于支持向量机方法的图像分割与目标分类[D];华中科技大学;2005年
10 牛晓太;多模式智能谈判支持系统的理论与方法研究[D];武汉大学;2004年
中国硕士学位论文全文数据库 前10条
1 刘孟旭;基于EP的多分类器表决分类算法[D];郑州大学;2004年
2 向光;基于机器学习和数据挖掘的入侵检测技术研究[D];东北大学;2005年
3 亢华爱;入侵检测系统中基于代价敏感分类算法的研究[D];太原理工大学;2005年
4 张金伟;基于Agent网络答疑系统的设计与实现[D];华东师范大学;2006年
5 王晶;支持向量机及其在癌症诊断中的应用研究[D];东北师范大学;2006年
6 万辉;自主载体语义级环境建模和规划的研究与实现[D];沈阳工业大学;2006年
7 黄际洲;聊天机器人知识库自动抽取算法的研究与实现[D];重庆大学;2006年
8 孟祥山;工作流流程优化技术的应用研究[D];国防科学技术大学;2004年
9 芦明;语义网服务中基于机器学习的本体映射研究[D];大连海事大学;2008年
10 马波;支持向量机多类分类算法的分析与设计[D];扬州大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026