收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

词典和机器学习相结合的生物命名实体识别

王琦  
【摘要】: 生物命名实体识别(Biomedical name entity recognition,Bio-NER)是在分子生物学及医学领域对专业词汇加以确认和分类,这类专业词汇包括蛋白质、基因、RNA以及他们的活动位置,如细胞线等。当前海量的生物医学文献为文本挖掘技术提供了用武之地,可以使用该技术挖掘出海量文献中蕴藏的各种知识。为了得到基因、蛋白质等生物实体之间的联系,首先要在文献中识别基因、蛋白质等生物实体。因此生物命名实体识别是其他文本挖掘技术如关系抽取、假设生成、文本分类的基础。 现阶段生物命名实体识别的研究方法大体可以分为基于词典、基于规则和基于统计机器学习三种方法。基于词典的方法简单实用,但是性能却限制于词典的规模与质量。基于规则的方法取决于规则的完备性和合理性,缺乏一定的适应性。基于统计机器学习的方法主要应用现有的人工标注好的语料在相应的统计机器学习工具下进行训练,生成目标模型,最后使用该模型去标注未知语料。该方法在移植到新的领域或其他自然语言文本时可以不做或只做较少的改动,已成为现阶段研究的主流方法。 为了弥补单纯基于词典的方法的缺陷,并结合统计机器学习方法的优势,本文提出了一种基于词典和机器学习相结合的生物命名实体识别方法。基于生物命名实体词典和条件随机域(Conditional random fields,CRFs)训练获得“实体词性”(Part OfSpeech-Entity,POS-Entity)标注模型,对未知语料进行标注获得“实体词性”特征。同时根据生物命名实体的特点提取词形等特征,结合上述“实体词性”特征基于CRFs训练获得生物命名实体识别模型。为进一步提高识别性能,在“实体词性”标注阶段采取将生物实体分成不同组别,分别进行“实体词性”标注的分组策略。 基于JNLPBA2004语料集进行实验,实验结果表明本文提出的基于词典和机器学习相结合的方法取得了较好的结果,在“实体标记”阶段应用分组策略后综合分类率72.83%。对实验结果进行错误分析,针对典型错误进行后续处理后综合分类率达到73.39%。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 马广为;;利用多层感知器进行图像处理[J];统计与管理;2011年04期
2 李昕;杨丽娟;;基于图表达原理的多维数据特征的选取[J];国外电子测量技术;2007年10期
3 刘丽珍,宋瀚涛;文本分类中的特征选取[J];计算机工程;2004年04期
4 刘丽珍;宋瀚涛;陆玉昌;;基于二次熵的互信息特征选取方法的研究[J];计算机科学;2004年12期
5 赵长伟;孙素环;李晓培;;基于语义相似度的文本表示降维方法[J];河南科技大学学报(自然科学版);2008年05期
6 张豪杰;张红云;苗夺谦;;基于主曲线的脱机手写英文字母结构特征分析及选取[J];计算机科学;2009年10期
7 王年,任彬,黄勇,汪炳权;人工神经网络在公路车辆管理中的应用[J];电子技术应用;1998年09期
8 卢新国,林亚平,陈治平;一种改进的互信息特征选取预处理算法[J];湖南大学学报(自然科学版);2005年01期
9 孙兴波,杨平先,干树川;基于属性重要度的启发式特征选取算法[J];自动化与仪器仪表;2005年05期
10 吴恒山;严锋;裴小兵;刘莉;;一种基于粗糙集的特征选取算法及应用[J];计算机工程与应用;2006年16期
11 姚兴山;;基于词频的中文文本分类研究[J];现代情报;2009年02期
12 吴丽芸,王文伟,张平,陈俊;手写混合字符集识别的多特征多级分类器设计[J];计算机应用;2005年12期
13 李国和;;基于类扩张矩阵的信息系统特征选取[J];计算机工程;2006年17期
14 焦娜;迟呈英;苗夺谦;杨红;;基于软K段主曲线算法的字符特征提取研究及实现[J];计算机科学;2006年01期
15 陈光;刘宗田;;基于特征聚合与最大熵的文本分类算法[J];计算机应用与软件;2008年03期
16 陈森平;陈启买;游才文;彭利宁;;基于最大间隔的支持向量机特征选取算法研究[J];华南师范大学学报(自然科学版);2010年04期
17 李颖新,阮晓钢;基于支持向量机的肿瘤分类特征基因选取[J];计算机研究与发展;2005年10期
18 周而重;逄玉俊;;一种改进的K近邻法在模式识别中的应用[J];沈阳师范大学学报(自然科学版);2007年04期
19 刘小可;王云兰;;一个改进的基于最大熵原理的汉语词性标注系统[J];光盘技术;2007年06期
20 姚兴山;;基于统计的中文文本分类研究[J];情报理论与实践;2009年05期
中国重要会议论文全文数据库 前10条
1 尹东;任志清;侯蕾;;基于智能Agent的目标特征选取研究[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
2 忻琦;;基于RS的农作物生长状态特征选取及图像搜索算法研究[A];全国农业遥感技术研讨会论文集[C];2009年
3 张祝玉;任飞亮;朱靖波;;基于条件随机场的中文命名实体识别特征比较研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 侯杰;茅耀斌;孙金生;;基于FDA的快速haar特征选取及其在级联AdaBoost人脸检测中的应用[A];中国自动化学会控制理论专业委员会D卷[C];2011年
5 陶富民;高军;周凯;;面向话题的新闻评论的情感特征选取[A];第五届全国信息检索学术会议论文集[C];2009年
6 刘艳民;;中文网页分类方法的研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
7 曾黄麟;曾谦;;系统参数重要性与不确定性问题研究[A];1999年中国智能自动化学术会议论文集(上册)[C];1999年
8 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 弟宇鸣;高鹏;马文彦;;基于MATLAB的核径迹图像预处理及特征选取[A];第十四届全国核电子学与核探测技术学术年会论文集(下册)[C];2008年
10 弟宇鸣;高鹏;马文彦;;基于MATLAB的核径迹图像预处理及特征选取[A];第十四届全国核电子学与核探测技术学术年会论文集(2)[C];2008年
中国博士学位论文全文数据库 前10条
1 左洪浩;蚁群优化算法及其应用研究[D];中国科学技术大学;2006年
2 邹涛;智能网络入侵检测系统关键技术研究[D];国防科学技术大学;2004年
3 王会珍;文本内容分类和主题追踪关键技术研究[D];东北大学;2008年
4 吕宁;基于数据驱动的故障诊断模型及算法研究[D];哈尔滨理工大学;2009年
5 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
6 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年
7 王丽娟;基于特征评价的模式识别算法研究[D];哈尔滨工业大学;2007年
8 汪云路;语音隐藏分析方法研究[D];中国科学技术大学;2008年
9 雷少帅;基于内容的视频检索关键技术研究[D];太原理工大学;2012年
10 高贵;SAR图像目标ROI自动获取技术研究[D];国防科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 王琦;词典和机器学习相结合的生物命名实体识别[D];大连理工大学;2009年
2 陈光辉;基于本体的文本特征选取和加权方法研究[D];河北大学;2010年
3 周荣鹏;生物医学文献中命名实体的识别[D];大连理工大学;2009年
4 张猛;文本聚类中参数自动设置技术的研究与实现[D];东北大学;2005年
5 马慧敏;中文文本自动分类方法的研究和实现[D];华北电力大学(河北);2005年
6 岑涌;基于特征提取与支持向量机的企业财务困境预测研究[D];厦门大学;2007年
7 许楠;基于神经网络的在线手写签名验证方法研究[D];武汉理工大学;2006年
8 严锋;基于粗糙集的特征选取算法研究[D];华中科技大学;2006年
9 李大锋;支持向量机在基金评估中的应用[D];厦门大学;2008年
10 虞永方;基于步态的身份识别的算法实现[D];吉林大学;2009年
中国重要报纸全文数据库 前1条
1 彭黎明;“古代建筑保护技术信息系统研发”与“古代建筑虚拟修复及web表现技术研究”课题通过验收[N];中国文物报;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978