收藏本站
《西北农林科技大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于生物医学文本挖掘的蛋白质间相互作用关系抽取方法的研究

包振栋  
【摘要】:近年来,在生物医学领域随着其文献数量的快速增长,利用数据挖掘技术从生物医学文献中获取所需的生物医学知识已经成为生物信息学领域的研究热点。蛋白质发挥其生物功能最基础和重要的一种方式就是通过蛋白质间相互作用(Protein-Protein Interaction,PPI),而大量的蛋白质相互作用信息都以非结构化数据的形式记录在生物医学文献中,人工检阅的方式查找文献中的PPI信息十分耗时费力,因此,利用文本挖掘技术对生物医学文献中的蛋白质相互作用关系进行挖掘和分析,从而准确的提取PPI关系具有十分重要的意义。现有的PPI关系抽取的研究中将从生物医学文献中抽取PPI关系视为一个二值分类问题,PPI抽取任务中多采用基于统计和机器学习的算法,通过对生物文本进行特征提取形成特征向量,从而构建分类模型,取得了较好的抽取效果。但是现有研究中所采用的机器学习方法通常是监督学习方法,需要大量已标注的PPI关系数据来构建分类模型,而在生物医学领域,利用人工标注PPI关系语料需要花费大量的人力和时间成本。为了降低构建分类模型对标注数据的要求,本文从以下两个方面进行研究:1、基于远程监督和迁移学习提取蛋白质相互作用关系将待分类的PPI关系数据集视为目标领域数据集,为降低目标领域PPI关系抽取中对标注数据的需求,本研究使用迁移学习,通过对不同分布的源领域PPI关系数据集进行知识迁移,来构建关系抽取模型,从而对目标领域待分类PPI样本进行分类。本研究基于远程监督思想构建人工标注语料作为源领域PPI数据集,首先从IntAct蛋白质相互作用数据库中下载PPI数据作为关系知识库,并从PubMed数据库中爬取生物医学文献摘要作为原始语料集,根据知识库中的PPI对在原始语料集中进行映射,通过启发式的匹配来获取包含有该PPI的语句,将原始语料集中存在映射的PPI作为正例样本,否则作为负例样本,以此得到人工标注的PPI数据集。使用基于实例的迁移学习方法TrAdaboost在构建的源领域PPI数据集和部分目标PPI数据集上构建分类模型,对目标领域的PPI样本进行分类。在3个标准数据集上的实验结果表明,本研究利用远程监督构建的人工数据集能够很好的辅助算法建立分类模型,在目标领域标注样本较少的情况下,通过迁移人工数据集的知识对目标领域PPI关系进行抽取具有较好的性能。2、PU(Positive Unlabeled)场景下基于迁移学习和远程监督提取蛋白质相互作用在实际应用中,数据经常是未标注的或少量标注的,如本研究中涉及到的PPI数据集。由于实验条件的制约,现有的很多PPI关系并不能确定其是否有相互作用,因此可以将这部分数据视为未标注数据集,仅有少量的PPI关系经实验验证后确实存在相互作用,这部分数据可以视为正例样本。在这种情况下,传统的有监督算法就无法构建高效的分类模型来对生物文献中的PPI关系进行识别。在远程监督的基础上,本研究从迁移学习和PU学习两个角度展开研究,提出了在PU场景下基于迁移学习和远程监督的蛋白质相互作用关系抽取方法——TPAODE算法。该方法收集目标PPI数据集的特征信息,利用数据引力方法对源PPI数据集样本赋予权重进行知识迁移,基于贝叶斯理论在加权的源PPI数据集上估算概率参数,利用静态分类器集成技术构建基于权重的PU学习算法。实验结果表明,本研究提出的TPAODE算法对目标领域PPI数据集不需要类别标注,仅在源领域PPI数据集上标注部分有相互作用关系的样本,基于源领域PPI数据集和目标领域PPI数据集构建分类模型,具有比传统PU方法相当或更好的性能。为了进一步降低模型对标注数据的要求,本研究将前文利用远程监督构建的人工PPI数据集作为源领域数据集,基于仅有少量正例样本的源数据集和目标数据集学习模型,对目标领域的PPI样本进行分类,结果表明,本研究提出的TPAODE算法利用远程监督数据集依然比现有的PU学习方法PNB和PTAN具有更优异的分类性能。
【学位授予单位】:西北农林科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:Q51;TP391.1

【参考文献】
中国期刊全文数据库 前9条
1 李满生;常乘;马洁;朱云平;;基于机器学习的蛋白质相互作用文献挖掘方法研究进展[J];中国科学:生命科学;2016年11期
2 张金蕾;李梅;张阳;梁春泉;王勇;;P-AnDT:平均n依赖决策树的正例未标注学习算法[J];计算机应用研究;2016年07期
3 张荷;李梅;张阳;蔡晓妍;;基于PU学习的软件故障检测研究[J];计算机应用研究;2015年11期
4 潘云;布勒布丽汗·伊沙巴依;杨静;尹敏;;利用中文在线资源的远程监督人物关系抽取[J];小型微型计算机系统;2015年04期
5 邵强;张阳;蔡晓妍;;基于随机森林的正例与未标注学习[J];计算机工程与设计;2014年12期
6 庄福振;罗平;何清;史忠植;;迁移学习研究进展[J];软件学报;2015年01期
7 王健;冀明辉;林鸿飞;杨志豪;;基于上下文环境和句法分析的蛋白质关系抽取[J];计算机应用;2012年04期
8 李满生;刘齐军;李栋;刘培磊;朱云平;;蛋白质相互作用信息的文本挖掘研究进展[J];中国科学:生命科学;2010年09期
9 蒋盛益,李庆华;一种基于引力的聚类方法[J];计算机应用;2005年02期
中国硕士学位论文全文数据库 前8条
1 郭瑞;基于迁移学习和词表示的蛋白质交互关系抽取[D];大连理工大学;2015年
2 宋宝兴;功能相似蛋白质挖掘及蛋白质相互作用预测平台[D];西北农林科技大学;2013年
3 封二英;基于大规模文本的蛋白质交互关系自动提取研究[D];南京航空航天大学;2012年
4 孙雅铭;生物医学文本中蛋白质相互作用关系抽取关键技术研究[D];哈尔滨工业大学;2012年
5 何佳珍;不确定数据的PU学习贝叶斯分类器研究[D];西北农林科技大学;2012年
6 李满生;基于本体的蛋白质相互作用信息文本挖掘方法研究[D];中国人民解放军军事医学科学院;2010年
7 虞欢欢;基于机器学习的蛋白质相互作用关系抽取的研究[D];苏州大学;2010年
8 戴文渊;基于实例和特征的迁移学习算法研究[D];上海交通大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 胡海峰;郑茂;吴伟坚;王俊;吴建盛;;基于多示例多标记迁移学习的蛋白质功能预测[J];中国科学:信息科学;2017年11期
2 周国华;巢海鲸;申燕萍;;安全迁移支持向量机[J];计算机科学;2017年S2期
3 杨杰;燕雪峰;张德平;;考虑KL散度的多源软件缺陷预测方法[J];小型微型计算机系统;2017年11期
4 王文朋;毛文涛;何建樑;窦智;;基于深度迁移学习的烟雾识别方法[J];计算机应用;2017年11期
5 李蒙;朱卫纲;;基于迁移成分分析的雷达辐射源识别方法研究[J];电子设计工程;2017年20期
6 张帅;贾如春;;基于Hadoop的大数据信息安全监控云平台设计与研究[J];计算机测量与控制;2017年09期
7 刘小明;翟蕾蕾;朱婷;;基于迁移学习的乳腺结构紊乱异常识别[J];计算机工程与设计;2017年09期
8 杨杰;燕雪峰;张德平;;基于Boosting的代价敏感软件缺陷预测方法[J];计算机科学;2017年08期
9 曾子明;秦思琪;;智慧图书馆移动视觉搜索服务及其技术框架研究[J];情报资料工作;2017年04期
10 刘昊天;舒欣;姜海燕;徐彦;伍艳莲;郭小清;;局部标记关系的多标记迁移学习算法[J];小型微型计算机系统;2017年07期
中国硕士学位论文全文数据库 前10条
1 马睿涛;基于迁移学习和PU学习的软件故障预测方法研究[D];西北农林科技大学;2017年
2 包振栋;基于生物医学文本挖掘的蛋白质间相互作用关系抽取方法的研究[D];西北农林科技大学;2017年
3 姜楠楠;基于文档集的生物信息挖掘模型研究与实现[D];东北农业大学;2016年
4 邢晨;基于深度学习的高光谱遥感图像分类[D];中国地质大学;2016年
5 高飞;基于MapReduce的蛋白质相互作用信息抽取系统的设计与实现[D];西北农林科技大学;2016年
6 毕凯;基于集成学习的药物相互作用信息抽取系统的研究与实现[D];西北农林科技大学;2016年
7 李富义;人类蛋白质糖基化位点预测的数据挖掘技术研究[D];西北农林科技大学;2016年
8 靳海群;基于迁移学习的跨领域行为识别研究[D];安徽大学;2016年
9 王帅;基于Adaboost算法的成矿预测模型研究[D];中国地质大学(北京);2016年
10 陈泉浈;基于迁移学习的恐怖行为预测算法研究[D];江苏大学;2016年
【二级参考文献】
中国期刊全文数据库 前10条
1 李勇;刘战东;张海军;;不平衡数据的集成分类算法综述[J];计算机应用研究;2014年05期
2 张星;张阳;刘明建;王勇;;DTU-PU:针对不确定数据PU学习的决策树[J];计算机工程与应用;2013年09期
3 吴晓萍;赵学靖;乔辉;刘东梅;王志;;基于LASSO-SVM的软件缺陷预测模型研究[J];计算机应用研究;2013年09期
4 刘小花;王涛;吴振强;;软件缺陷集成预测模型研究[J];计算机应用研究;2013年06期
5 李丽双;刘洋;黄德根;;基于组合核的蛋白质交互关系抽取[J];中文信息学报;2013年01期
6 刘辉;李蕊;焦铬;;软件故障检测技术及其发展探讨[J];电脑知识与技术;2011年15期
7 林立;朱小冬;王毅刚;阎旭坤;;基于数据挖掘的软件故障诊断研究[J];微计算机信息;2010年34期
8 潘世瑞;张阳;李雪;王勇;;针对不确定正例和未标记学习的最近邻算法(英文)[J];计算机科学与探索;2010年09期
9 周传华;王清;吴科主;赵保华;;平均1-依赖决策树集成算法[J];电子学报;2010年02期
10 ;Inductive transfer learning for unlabeled target-domain via hybrid regularization[J];Chinese Science Bulletin;2009年14期
中国硕士学位论文全文数据库 前6条
1 朱倩;属性不确定数据关联分类算法研究[D];大连理工大学;2011年
2 谷海滨;水稻蛋白相互作用网络预测及数据库的构建[D];浙江大学;2011年
3 虞欢欢;基于机器学习的蛋白质相互作用关系抽取的研究[D];苏州大学;2010年
4 李雪;不确定数据聚类研究[D];大连理工大学;2009年
5 张志刚;领域本体构建方法的研究与应用[D];大连海事大学;2008年
6 廖军;基于领域本体的信息检索研究[D];中南大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 王吉村,药立波;从蛋白质相互作用研究方法的发展看人们认识事物的过程[J];医学与哲学;2000年05期
2 梁琳慧,韩忠朝;蛋白质相互作用的研究方法[J];生命的化学;2005年03期
3 唐泽耀,戴淑芳,陈华,林原;蛋白质相互作用研究的哲学思考[J];医学与哲学;2005年01期
4 曹建平,马义才,李亦学,石铁流;计算方法在蛋白质相互作用研究中的应用[J];生命科学;2005年01期
5 谢江;张武;梅健;顾知立;吴继宗;李辉;张律文;;一种新的计算预测alpha-synuclein蛋白质相互作用网络的方法(英文)[J];Journal of Shanghai University(English Edition);2008年06期
6 余鑫煜;许正平;;蛋白质相互作用数据库及其应用[J];中国生物化学与分子生物学报;2008年03期
7 刘中扬;李栋;朱云平;贺福初;;蛋白质相互作用网络进化分析研究进展[J];生物化学与生物物理进展;2009年01期
8 王正华;董蕴源;王勇献;;蛋白质相互作用网络的几种聚类方法综述[J];国防科技大学学报;2009年04期
9 陆林英;魏雅卓;崔颖;孙平平;马雅楠;马志强;;基于支持向量机的蛋白质相互作用识别[J];生物信息学;2009年04期
10 王建新;蔡钊;李敏;;一种基于极大团的蛋白质相互作用预测方法[J];高技术通讯;2009年01期
中国重要会议论文全文数据库 前10条
1 刘珍;孙景春;谢锦云;李亦学;梁宋平;石铁流;;蛋白质相互作用网络中的生物途径分析[A];中国蛋白质组学第二届学术大会论文摘要论文集[C];2004年
2 李占潮;周漩;戴宗;邹小勇;;基于一级结构信息预测蛋白质与蛋白质相互作用[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
3 王存新;马晓慧;陈慰祖;;构象熵对蛋白质-蛋白质相互作用及结合自由能的贡献[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
4 程钢;吴松锋;陈廷贵;万平;朱云平;贺福初;;22周孕龄胎肝蛋白质相互作用网络的构建[A];中国蛋白质组学首届学术大会论文摘要集[C];2003年
5 杨晓明;王建;许望翔;虞东辉;杨永升;刘琼明;周颖;张翠莉;吴志豪;张万巧;刘涛;唐刘君;原艳芝;郝峰;金超智;贺福初;;人类肝脏重要蛋白质相互作用连锁图研究进展[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
6 吴俊;邓宏钟;朱大智;谭跃进;;蛋白质相互作用网络的度秩函数与度分布[A];2006全国复杂网络学术会议论文集[C];2006年
7 李令东;田瑞军;唐伟;邹汉法;赵宗保;;携异戊烯链小分子与蛋白质相互作用的研究[A];第六届全国化学生物学学术会议论文摘要集[C];2009年
8 李立;肖奕;孙之荣;;酵母蛋白质相互作用网络的模块进化[A];第十一次中国生物物理学术大会暨第九届全国会员代表大会摘要集[C];2009年
9 陈慰祖;庄彦;王存新;;用分子模拟方法研究胰岛素二聚体的相互作用和识别[A];第三届全国现代生物物理技术学术讨论会论文摘要汇编[C];2000年
10 马文;刘艳清;郭琼;邓玉林;;生物功能化色谱法研究胰岛素及其受体间的相互作用[A];第十五次全国色谱学术报告会文集(上册)[C];2005年
中国重要报纸全文数据库 前10条
1 记者 常丽君;科学家绘制出迄今最详细蛋白质相互作用图[N];科技日报;2011年
2 胡德荣;蛋白质相互作用网络预测新方法被发现[N];健康报;2007年
3 通讯员 甄蓓 特约记者 吴志军;肝脏蛋白质相互作用图绘出[N];健康报;2011年
4 甄蓓;我科学家成功绘制人类肝脏蛋白质相互作用网络连锁图[N];科技日报;2011年
5 甄蓓;人类肝脏蛋白质“关系网络图”绘成[N];中国医药报;2011年
6 毛黎;美开发细胞内蛋白质相互作用标识技术[N];科技日报;2007年
7 张佳星;人类为何如此与众不同[N];科技日报;2008年
8 白毅;我国计算生物学研究取得重要进展[N];中国医药报;2007年
9 余志平 编译;PCAs给我们带来了什么?[N];中国医药报;2007年
10 欣文;蛋白质相互作用导致疑难病症[N];医药经济报;2002年
中国博士学位论文全文数据库 前10条
1 沈懿珍;基于协同智能的蛋白质相互作用及其网络研究[D];东华大学;2011年
2 梁治;蛋白质相互作用网络的比较生物学分析及其应用[D];中国科学技术大学;2006年
3 王晓敏;基于蛋白质相互作用网络的功能模块识别及功能预测研究[D];国防科学技术大学;2013年
4 胡静;基于密度聚类和特征分类的蛋白质相互作用热区预测[D];武汉科技大学;2015年
5 李满生;蛋白质相互作用文献挖掘方法、注释体系及挖掘平台研究[D];中国人民解放军军事医学科学院;2016年
6 谢江;蛋白质相互作用网络的数值研究[D];上海大学;2008年
7 史明光;蛋白质相互作用预测方法的研究[D];中国科学技术大学;2009年
8 杜秀全;基于智能计算的蛋白质相互作用预测方法研究[D];安徽大学;2010年
9 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
10 庞开放;基于基因表达和蛋白质相互作用数据集成的蛋白质进化、功能重要性和动态模块化组织的研究[D];上海交通大学;2011年
中国硕士学位论文全文数据库 前10条
1 董蕴源;基于谱方法的蛋白质相互作用网络分析[D];国防科学技术大学;2007年
2 邴志桐;蛋白质相互作用网络度分布的研究[D];兰州大学;2009年
3 杨晓飞;基于多源数据融合的蛋白质—蛋白质相互作用网络构建方法研究[D];中国科学技术大学;2009年
4 刘喆;人类蛋白质相互作用数据库可靠性的衡量[D];天津大学;2009年
5 李满生;基于本体的蛋白质相互作用信息文本挖掘方法研究[D];中国人民解放军军事医学科学院;2010年
6 毕敬业;基于序列的蛋白质相互作用预测方法研究[D];山西大学;2013年
7 步淑杰;基于非变性微型2DE-网格凝胶切取—定量LC-MS/MS蛋白质相互作用组学方法的建立及人类血浆蛋白质的分析[D];华南理工大学;2015年
8 庄雪琴;大图理论在蛋白质相互作用网络比对中的应用[D];南京理工大学;2015年
9 陈白雪;体外进化ATP结合蛋白的初步功能研究[D];华中农业大学;2015年
10 董美豪;基于文本挖掘的蛋白质相互作用对抽取方法的研究[D];哈尔滨工业大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026