收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于组合分类器的生物命名实体识别

孙静  
【摘要】: 生物命名实体识别是一项非常重要和基础的生物医学文本挖掘技术,也是很关键的一个步骤,只有正确地识别出生物命名实体,才能有效地完成基因标准化、生物事件抽取以及蛋白质-蛋白质交互关系抽取等更加复杂的工作。生物医学命名实体包括蛋白质、基因、DNA、RNA等,通常有着复杂的结构,对于这些实体的鉴别和分类是非常富有挑战性的。机器学习方法例如CRF、MEMM和SVM已经广泛的应用于从已标注的语料中学习识别出生物医学命名实体。然而,生物命名实体识别系统的性能仍然没有普通命名实体识别系统的好。为了进一步提高生物命名实体识别的性能,研究者提出了合并多个分类器结果的多分类器方法。 本文主要研究基于组合分类器的生物命名实体识别方法,实验是在BioCreAtIvE 2GM的训练语料和测试语料上进行的。本文主要工作包括以下两点: (1)构建单一分类器模型 本文利用不同的分类模型、不同的分类方法和特征集构建了六个不同的机器学习模型,并对每种模型采用的特征集,特征抽取方法,以及训练过程进行了详细介绍。 为了进一步提高最大熵方法的识别性能,本文采用TBL方法对最大熵的标注结果进行了纠错处理。实验结果显示纠错处理在很大程度上提高了最大熵方法的识别性能。 (2)基于组合分类器的生物命名实体识别 分别采用了简单集合运算(如并集、交集等)、投票和叠加归纳三种策略对六个模型的识别结果进行组合。实验结果表明:组合分类器方法的识别性能好于单个分类器的识别性能;并不是参与组合的分类器的个数越多越好,组合分类器的识别性能依赖于单个分类器的性能和参与组合的分类器之间的差异性;基于两层叠加式的组合分类器的方法比集合运算以及投票法的性能好,最终获得了88.14%的F值,性能超过了当时参加BioCreAtIvE 2 GM比赛任务第一名的系统。


知网文化
【相似文献】
中国期刊全文数据库 前14条
1 曲晓棠;沈晓红;;基于最大熵模型的中文命名实体识别研究[J];科技信息(学术研究);2008年30期
2 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
3 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
4 李桂兰;余正涛;毛存礼;郭剑毅;侯波;线岩团;;旅游领域实体答案的抽取[J];广西师范大学学报(自然科学版);2009年01期
5 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
6 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
7 李满生;刘齐军;李栋;刘培磊;朱云平;;蛋白质相互作用信息的文本挖掘研究进展[J];中国科学:生命科学;2010年09期
8 方莹;;基于条件随机场的英文农产品名识别[J];河南科学;2011年03期
9 张素香;高国洋;戚银城;;基于条件随机场的中国人名识别方法[J];郑州大学学报(理学版);2009年02期
10 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
11 王世昆;李绍滋;陈彤生;;基于条件随机场的中医命名实体识别[J];厦门大学学报(自然科学版);2009年03期
12 张智;张正国;;蛋白质相互作用的文本挖掘研究进展[J];中国生物医学工程学报;2008年05期
13 李斌;;浅谈web信息抽取[J];大众科技;2010年04期
14 陈华;梁循;杨健;;面向专题的智能化中文搜索引擎[J];广西师范大学学报(自然科学版);2007年02期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
3 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
5 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 张祝玉;任飞亮;朱靖波;;基于条件随机场的中文命名实体识别特征比较研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
10 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
3 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
5 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
6 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
7 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
8 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
9 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
10 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
中国硕士学位论文全文数据库 前10条
1 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
2 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
3 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
4 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
5 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
6 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
7 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
8 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
9 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
10 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978