收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

多肽鉴定问题基于分类的非凸优化算法研究

王永响  
【摘要】:从数据库搜索引擎给出的大量多肽谱匹配(PSM)中鉴定出正确匹配称为多肽鉴定。它是目前基于高通量串联质谱平台鉴定蛋白质的关键步骤。尽管已经提出多种方法来提高多肽鉴定的准确性,由于搜索引擎输出的大量匹配是不正确,研究具有稳定性能的多肽鉴定算法仍是重要的研究课题。CRanker算法是一种基于核的分类方法,具有较强的分类性能。与基准算法相比,在多肽鉴定中显示出其优越性。但CRanker在小规模数据集训练过程中容易发生过拟合以及鉴定性能不稳定的问题。针对上述问题,本文对CRanker模型进行了改进,并设计有效的优化算法。CRanker与标准SVM分类器一样,在所有PSM数据样本上使用相同的损失函数及权重。实际上,目标PSM样本中大量标签是不正确的。这是在小型数据集上发生过拟合的重要原因。第二章在CRanker模型中进行改进,对于诱骗样本和目标样本引起的经验损失分别采用不同的权重参数。并在理论上分析了模型参数的作用。现有的优化问题解决非凸规划模型时很容易在较差的局部最优值终止,特别是在小数据集上,导致分类表现不稳定。第三章结合改进的CRanker模型与自步长学习算法提出了新的多肽鉴定算法,SPL-CRanker。新提出的算法用自步长学习方法代替了原有的训练方式,通过增大自步长学习参数实现了从可信样本到不可信样本的自动提取和分析过程。实验结果表明SPL-CRanker方法克服了CRanker在正确多肽谱匹配比例较小的数据集上鉴定性能不稳定的缺陷,使得在测试数据集上可得到稳定的多肽谱匹配鉴定结果。SPL-CRanker在相同FDR水平下鉴别目标PSM的数目,ROC指标等方面的表现均超过了主流多肽鉴定方法PeptideProphet和Percolator。第四章将CRanker模型重建为内嵌支持向量机的DC优化模型,运用CCCP算法进行求解。实验结果表明新方法与两种基准方法相比,在多个数据集上均可得较好的鉴定结果且在测试集上具有良好的推广性能。为后续设计大规模PSM数据集的多肽鉴定算法奠定了基础。


知网文化
【相似文献】
中国期刊全文数据库 前14条
1 叶瑜;李俊;卢钰洁;方修琦;;六个全球历史土地覆盖数据集数据来源的对比分析[J];北京师范大学学报(自然科学版);2019年06期
2 张向清;杨锐;白涛;王金妮;;高速公路场景下基于深度学习的数据集建立[J];数字技术与应用;2020年02期
3 李红蕾;;构建图形图像数据集的方法概述[J];计算机产品与流通;2020年08期
4 黄佳妮;王君领;沈嘉裕;王伊杨;张约翰;王佳敏;胡吉明;陆伟;;多国议会数据集及平台建设研究[J];情报工程;2020年02期
5 杨波;赵扬;焦红;;国际主要科学数据集检索平台对比研究[J];情报工程;2020年01期
6 郑弦;;数据集采器在临床护理工作中的应用价值探讨[J];基层医学论坛;2017年12期
7 Long-xiang WANG;Xiao-she DONG;Xing-jun ZHANG;Yin-feng WANG;Tao JU;Guo-fu FENG;;TextGen:用于新型存储系统基准测试的真实文本数据集生成方法(英文)[J];Frontiers of Information Technology & Electronic Engineering;2016年10期
8 刘娟;朱翔鸥;刘文斌;;基于交互信息的数据集特征结构研究[J];模式识别与人工智能;2014年01期
9 沈雯漪;;大型数据集数据挖掘算法研究[J];计算机光盘软件与应用;2014年16期
10 职为梅;郭华平;范明;叶阳东;;非平衡数据集分类方法探讨[J];计算机科学;2012年S1期
11 吴克寿;曾志强;;非平衡数据集分类研究[J];计算机技术与发展;2011年09期
12 付优;;非平衡数据集的分类[J];电力学报;2010年04期
13 张缨;周红俊;李建军;刘根林;郑樱;郝春霞;王一吉;康海琼;卫波;;国际脊髓损伤数据集之核心数据集[J];中国康复理论与实践;2009年09期
14 高嘉伟;梁吉业;;非平衡数据集分类问题研究进展[J];计算机科学;2008年04期
中国重要会议论文全文数据库 前10条
1 王羽;姜晓夏;陆辰;王振宇;王珩;吴振锋;;军事机器阅读理解数据集构建与评估[A];2019第七届中国指挥控制大会论文集[C];2019年
2 缪国宇;刘洪鹏;苏文学;刘荣生;赵相东;;基于数据仓库的企业指标分析系统[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
3 王子恒;齐勇刚;刘军;;路面交通标志检测调研:数据集及算法[A];2018中国汽车工程学会年会论文集[C];2018年
4 郭景峰;杜京;马倩;邹晓红;;一种基于数据集性质的快速等差模式聚类算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
5 孟烨;张鹏;宋大为;王雷;;信息检索系统性能对数据集特性的依赖性分析[A];需将论文集名称修改为“第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年
6 田捷;;三维医学影像数据集处理的集成化平台[A];2003年全国医学影像技术学术会议论文汇编[C];2003年
7 冷传良;;飞机化铣成样板划线数据集设计方法探索[A];第十届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2013年
8 范明;魏芳;;挖掘基本显露模式用于分类[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 刘通;张宇献;;基于加权平均数的模糊聚类有效性函数[A];第十届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2013年
10 林荔;林铖;;福建省小时风速数据集研制及应用[A];第35届中国气象学会年会 S20 深度信息化:应用支持与智能发展[C];2018年
中国博士学位论文全文数据库 前10条
1 皇群博;晴空条件FY-3C大气微波垂直探测资料变分同化研究[D];国防科技大学;2018年
2 马飞;复杂场景下的行人重识别关键技术研究[D];武汉大学;2019年
3 孙秀宝;基于CMA-LSAT v1.0数据集的近百年全球陆表气温变化研究[D];南京信息工程大学;2018年
4 陈迪;耕地数量与质量时空变化遥感监测研究[D];中国农业科学院;2019年
5 李星达;钢琴多音估计问题和音乐生成问题的深度学习方法[D];吉林大学;2019年
6 刘皓;基于深度学习的行人再识别问题研究[D];合肥工业大学;2017年
7 王建培;聚类有效性分析及其在电学层析成像中的应用[D];天津大学;2017年
8 杨勋;跨视域行人再识别若干问题研究[D];合肥工业大学;2017年
9 纳赛尔 阿里 穆罕默德 巴拉卡特;复杂化学数据的知识发现新型化学计量学算法研究[D];湖南大学;2005年
10 李宏;面向应用领域的分类方法研究[D];中南大学;2007年
中国硕士学位论文全文数据库 前10条
1 王永响;多肽鉴定问题基于分类的非凸优化算法研究[D];中国石油大学(华东);2018年
2 肖娜;基于密度和方向的聚类算法研究[D];湖南大学;2019年
3 乐雨泉;基于句法和语义的句子表示方法[D];湖南大学;2019年
4 徐慧;社交商务中客户画像的研究[D];西南财经大学;2019年
5 陈康;超限学习机拓展研究及其脑电分类应用[D];杭州电子科技大学;2019年
6 刘文斌;中式菜肴食材数据集的构建及其分类算法研究[D];武汉轻工大学;2019年
7 余冠华;基于多属性铁路事故数据集的聚类和关联规则分析方法研究[D];北京交通大学;2019年
8 陈磊阳;基于改进VGGNet的不透水面信息提取应用研究[D];河南大学;2019年
9 周听听;基于深度学习的医保异常检测研究[D];电子科技大学;2019年
10 陈远鹏;基于长时间可穿戴社交数据集的语音分割方法的研究[D];电子科技大学;2019年
中国重要报纸全文数据库 前10条
1 记者 张梦然;最大规模婴儿微生物组数据集建立[N];科技日报;2018年
2 记者 张梦然;癌症学研究公布最新数据集[N];科技日报;2018年
3 记者 季张颖;上海已累计开放2100项公共数据集[N];上海法治报;2019年
4 记者 王莉英;行政审批网上全流程办理率年底超80%[N];深圳特区报;2017年
5 记者 金昶 通讯员 陈斯音;我国发布首款全球海洋Argo网格数据集产品[N];中国海洋报;2017年
6 中国青年报·中青在线记者 谢宛霏;为AI领域“造血”[N];中国青年报;2017年
7 记者 罗旭;全球人工智能挑战赛开赛[N];光明日报;2017年
8 记者 刘钊 通讯员 徐文慧 杨溯;自主研发数据集显示今年上半年最热[N];中国气象报;2015年
9 冉瑞奎 刘晓林 戴艳萍;均一化历史气温数据集问世[N];中国气象报;2006年
10 通讯员廖雅琴记者冯竞;“国人数字化可视人体数据集”完成[N];科技日报;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978