收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于词典与机器学习的基因命名实体识别机制研究

夏光辉  
【摘要】:基因命名实体识别是在分子生物学及医学领域对基因、RNA、DNA蛋白质等专业词汇进行识别和分类。海量的生物医学文献为挖掘文本中的隐含知识提供了条件,为了得到基因、蛋白质等命名实体之间的关联关系,首先要在文献中识别基因、蛋白质等命名实体,因此基因命名实体识别是知识关系抽取、知识关系计算等文本挖掘技术的基础。 基于词典的命名实体识别方法简单实用,很容易在应用系统中部署使用,但是识别效果受限于词典的规模与质量。基于机器学习的命名实体识别方法不仅可以识别出训练语料中已标注的基因命名实体,而且可以较好的识别出新出现的基因命名实体,但是识别效果取决于语料库的质量和数量,因此目前还处于试验探索阶段。为了充分利用基于词典方法在实用性方面的优势以及机器学习方法在识别新命名实体方面的优势,本文提出了基于词典和机器学习相结合的基因命名实体识别方法,并在以下几个方面进行了探索和研究。 首先,本文以UMLS作为术语来源,通过UMLS的语义类型获取基因领域术语,并将基因术语按照实体语料的格式进行转换,构建基因实体词典。 其次,总结了已有研究中基因命名实体特征的构建方法,并创造性的提出了词典特征的构建方法,最终本文基于词典和语料构建了15类基因命名实体特征。 再次,本文基于GENIA3.02语料以及开源的实体识别工具CRF++,构建了词典与机器学习相结合的基因命名实体识别模型,并进行了大量有针对性的实验和测试。实验结果表明,与基于机器学习的实体识别方法相比,本文提出的词典与机器学习相结合的方案,在获得较高的实体识别性能的同时,能够有效的降低实体识别的时间复杂度。 最后,基于实验结果和数据分析,本文提出了基于词典和机器学习的基因命名实体识别机制,对实验结果进行了讨论并提出了下一步研究建议。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 姜晚云;胡学钢;;浅析数据库知识发现与数据挖掘[J];滁州学院学报;2006年03期
2 方辉;王倩;;支持向量机的算法研究[J];长春师范学院学报;2007年06期
3 赵玉鹏;;论机器学习[J];安阳工学院学报;2011年04期
4 黄林军;张勇;郭冰榕;;机器学习技术在数据挖掘中的商业应用[J];中山大学学报论丛;2005年06期
5 苏淑玲;;机器学习的发展现状及其相关研究[J];肇庆学院学报;2007年02期
6 安增波;张彦;;机器学习方法的应用研究[J];长治学院学报;2007年02期
7 余慧;;统计学习理论与支持向量机方法[J];湖北第二师范学院学报;2009年02期
8 郭显娥;武伟;刘春贵;张景安;;多类SVM分类算法的研究[J];山西大同大学学报(自然科学版);2010年03期
9 何志明;;支持向量机综述[J];科教新报(教育科研);2010年23期
10 刘星毅;农国才;;几种不同缺失值填充方法的比较[J];南宁师范高等专科学校学报;2007年03期
11 孙晨;;利用机器学习技术获取WEB页面中的匹配数[J];中国科教创新导刊;2007年23期
12 王存睿;文晋;;基于人脸检测的教室信息智能采集系统[J];大连民族学院学报;2009年05期
13 林长方;;支持向量机及其应用研究[J];和田师范专科学校学报;2010年05期
14 韩世欣,黄梯云,李一军;基于机器学习理论的智能决策支持系统模型操纵方法的研究[J];管理科学学报;1996年01期
15 贾纳豫;试论数据挖掘与机器学习、统计学、数据库的关系[J];玉溪师范高等专科学校学报;2000年04期
16 ;徐立本教授[J];吉林大学社会科学学报;2001年01期
17 唐明冰;贝叶斯机器学习——解开现实生活中扑朔迷离之谜[J];当代学生;2005年Z4期
18 张晓荣;;关于学习本质的哲学探索[J];兰州学刊;2007年05期
19 李时卓;阎满富;;基于数据的机器学习问题[J];唐山师范学院学报;2007年05期
20 郑汉垣;卢盛荣;江凤莲;;机器学习在智能管理系统中的应用探索[J];龙岩学院学报;2007年06期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
4 王浩畅;赵铁军;李艳;;生物医学命名实体识别的特征选取与评价[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
6 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
7 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 王浩畅;赵铁军;于浩;;基于文本的生物信息获取[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 徐博;林鸿飞;杨志豪;;基于模板抽取和丰富特征的药名词典生成[A];第五届全国信息检索学术会议论文集[C];2009年
10 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
3 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
4 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
5 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
6 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
7 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
8 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
9 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
10 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
2 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
3 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
4 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
5 杨永贵;中文信息抽取关键技术研究与实现[D];北京邮电大学;2008年
6 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
7 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
8 夏光辉;基于词典与机器学习的基因命名实体识别机制研究[D];北京协和医学院;2013年
9 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
10 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
中国重要报纸全文数据库 前10条
1 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
2 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
3 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
4 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
5 汤全友;企业采集走出手工模式[N];中国计算机报;2004年
6 记者 何边;网络化激活人工智能[N];计算机世界;2001年
7 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
8 佟文柱;语料更实 题材更广 语速更快[N];中国教师报;2002年
9 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
10 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978