词典和机器学习相结合的生物命名实体识别
【摘要】:
生物命名实体识别(Biomedical name entity recognition,Bio-NER)是在分子生物学及医学领域对专业词汇加以确认和分类,这类专业词汇包括蛋白质、基因、RNA以及他们的活动位置,如细胞线等。当前海量的生物医学文献为文本挖掘技术提供了用武之地,可以使用该技术挖掘出海量文献中蕴藏的各种知识。为了得到基因、蛋白质等生物实体之间的联系,首先要在文献中识别基因、蛋白质等生物实体。因此生物命名实体识别是其他文本挖掘技术如关系抽取、假设生成、文本分类的基础。
现阶段生物命名实体识别的研究方法大体可以分为基于词典、基于规则和基于统计机器学习三种方法。基于词典的方法简单实用,但是性能却限制于词典的规模与质量。基于规则的方法取决于规则的完备性和合理性,缺乏一定的适应性。基于统计机器学习的方法主要应用现有的人工标注好的语料在相应的统计机器学习工具下进行训练,生成目标模型,最后使用该模型去标注未知语料。该方法在移植到新的领域或其他自然语言文本时可以不做或只做较少的改动,已成为现阶段研究的主流方法。
为了弥补单纯基于词典的方法的缺陷,并结合统计机器学习方法的优势,本文提出了一种基于词典和机器学习相结合的生物命名实体识别方法。基于生物命名实体词典和条件随机域(Conditional random fields,CRFs)训练获得“实体词性”(Part OfSpeech-Entity,POS-Entity)标注模型,对未知语料进行标注获得“实体词性”特征。同时根据生物命名实体的特点提取词形等特征,结合上述“实体词性”特征基于CRFs训练获得生物命名实体识别模型。为进一步提高识别性能,在“实体词性”标注阶段采取将生物实体分成不同组别,分别进行“实体词性”标注的分组策略。
基于JNLPBA2004语料集进行实验,实验结果表明本文提出的基于词典和机器学习相结合的方法取得了较好的结果,在“实体标记”阶段应用分组策略后综合分类率72.83%。对实验结果进行错误分析,针对典型错误进行后续处理后综合分类率达到73.39%。
|
|
|
|
1 |
马广为;;利用多层感知器进行图像处理[J];统计与管理;2011年04期 |
2 |
李昕;杨丽娟;;基于图表达原理的多维数据特征的选取[J];国外电子测量技术;2007年10期 |
3 |
刘丽珍,宋瀚涛;文本分类中的特征选取[J];计算机工程;2004年04期 |
4 |
刘丽珍;宋瀚涛;陆玉昌;;基于二次熵的互信息特征选取方法的研究[J];计算机科学;2004年12期 |
5 |
赵长伟;孙素环;李晓培;;基于语义相似度的文本表示降维方法[J];河南科技大学学报(自然科学版);2008年05期 |
6 |
张豪杰;张红云;苗夺谦;;基于主曲线的脱机手写英文字母结构特征分析及选取[J];计算机科学;2009年10期 |
7 |
王年,任彬,黄勇,汪炳权;人工神经网络在公路车辆管理中的应用[J];电子技术应用;1998年09期 |
8 |
卢新国,林亚平,陈治平;一种改进的互信息特征选取预处理算法[J];湖南大学学报(自然科学版);2005年01期 |
9 |
孙兴波,杨平先,干树川;基于属性重要度的启发式特征选取算法[J];自动化与仪器仪表;2005年05期 |
10 |
吴恒山;严锋;裴小兵;刘莉;;一种基于粗糙集的特征选取算法及应用[J];计算机工程与应用;2006年16期 |
11 |
姚兴山;;基于词频的中文文本分类研究[J];现代情报;2009年02期 |
12 |
吴丽芸,王文伟,张平,陈俊;手写混合字符集识别的多特征多级分类器设计[J];计算机应用;2005年12期 |
13 |
李国和;;基于类扩张矩阵的信息系统特征选取[J];计算机工程;2006年17期 |
14 |
焦娜;迟呈英;苗夺谦;杨红;;基于软K段主曲线算法的字符特征提取研究及实现[J];计算机科学;2006年01期 |
15 |
陈光;刘宗田;;基于特征聚合与最大熵的文本分类算法[J];计算机应用与软件;2008年03期 |
16 |
陈森平;陈启买;游才文;彭利宁;;基于最大间隔的支持向量机特征选取算法研究[J];华南师范大学学报(自然科学版);2010年04期 |
17 |
李颖新,阮晓钢;基于支持向量机的肿瘤分类特征基因选取[J];计算机研究与发展;2005年10期 |
18 |
周而重;逄玉俊;;一种改进的K近邻法在模式识别中的应用[J];沈阳师范大学学报(自然科学版);2007年04期 |
19 |
刘小可;王云兰;;一个改进的基于最大熵原理的汉语词性标注系统[J];光盘技术;2007年06期 |
20 |
姚兴山;;基于统计的中文文本分类研究[J];情报理论与实践;2009年05期 |
|