收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于上下文语义相似性约束的蛋白质交互关系识别

吴红梅  
【摘要】:蛋白质交互(Protein-Protein Interaction,PPI)是生物医学领域一项重要的研究内容,目前由生物医学进行的PPI实验结果主要以文献的形式存储。PPI信息对生物、医药研究有着重要的意义,因此生物医学专家试图以手工收集信息的方法从文献中识别PPI信息,然后以统一的格式保存于关系数据库中。然而,随着生物医学文献大量地增加,以手工收集信息的方式已经难以满足实际需求。因此,研究如何从文献中识别PPI信息是一项亟待解决问题。目前常用的基于机器学习的方法大多是以单个句子为研究对象,这种方法依赖人工标注,且忽略了蛋白质交互的上下文信息。为了避免出现这些问题,本文以大规模语料库为研究依据,根据蛋白质丰富的上下文信息进行PPI识别。本文从文本数据库中收集了蛋白质对的上下文信息,从以下三个方面进行了研究。第一,研究上下文特征,从词性和单词相似性这两个角度对向量进行加权。得到的结果与不进行加权的结果相比,有交互蛋白质对F值提升了2.51%,无交互蛋白质对F值提升了1.85%。第二,根据蛋白质对关系描述文本之间的相似性,从关系相似性角度构建分类器进行PPI识别,重点比较了四种权重计算方法。第三,为了将上下文特征与文本之间的相似性这两种类型的信息进行有效地结合,采用了Minimum Cuts算法,利用上下文之间的相似性约束判断。在实验中,我们选择了不同比例的训练数据构建分类器。实验结果表明,当训练数据为80%时,与只有上下文特征信息的SVM的结果相比,识别结果有了3%-4%的提升。并且,Minimum Cuts以20%的训练数据得到了SVM以80%训练数据得到的识别结果。


知网文化
【相似文献】
中国重要会议论文全文数据库 前1条
1 高湘泽;;人与人之间的交互关系何以可能和可知?——让-保罗·萨特的有关思想略论[A];人学与现代化——全国第六届人学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前1条
1 兰盈盈;赣江三角洲地下水与地表水交互关系及其生态效应[D];中国地质大学;2016年
中国硕士学位论文全文数据库 前4条
1 吴红梅;基于上下文语义相似性约束的蛋白质交互关系识别[D];南京航空航天大学;2016年
2 封二英;基于大规模文本的蛋白质交互关系自动提取研究[D];南京航空航天大学;2012年
3 张盼盼;基于篇章的蛋白质交互关系抽取[D];大连理工大学;2014年
4 吴彦;信息技术业上市企业投融资交互关系的实证检验[D];电子科技大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978