收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于混合统计模型的汉语命名实体识别方法的研究与实现

张晓艳  
【摘要】:命名实体识别技术,即把文本中出现的专有名称和有意义的数量短语识别出来并加以归类。自95年在MUC-6(Message Understanding Conference)会议上首次提出以来,命名实体识别越来越受到自然语言处理研究者的关注,成为很多应用中的关键技术,例如信息检索、信息抽取、问题回答以及机器翻译等。同时它也是自然语言预处理词法分析阶段的一个长期以来亟待解决的问题。 目前为止,命名实体识别技术在很多语言中都有研究。在英语等西方语言体系中已经做了相当多的工作,取得了很大的进步,并且在实际应用中也有很好的效果。但是对于东方语言体系而言,命名实体识别技术还处在一个不成熟的阶段,这不仅在于技术本身的限制,具体语言的复杂性和多元性也是一个至关重要的因素。 命名实体识别技术研究领域主要经历了两类研究方法:基于规则的方法和基于统计的方法。基于规则的方法主观性较强,对专家知识获取比较依赖。基于统计的方法客观性较强,但是统计方法的正确性和统计源的可靠性对其影响较大。两种方法各有优缺点。 本文分析了多种语言的命名实体识别技术,提出一种混合统计模型结合语言知识的方法,即隐马尔可夫模型和最大熵模型相结合,并使用语言知识进行约束,对汉语中的命名实体进行识别。这些知识主要包括集合类知识和使用频次信息两类,其中命名实体识别主要使用前者,过滤过程主要使用后者。集合类知识包括了词性词典和命名实体特征词等,不同集合间的区别主要在其包含的知识对识别和标注所起的作用。频次信息主要是考虑不同的字词在命名实体中使用的频次不同,从而其构成命名实体的概率也会不同。隐马尔可夫模型从整个句子范围进行约束,完成命名实体识别和词性标注工作;最大熵模型,作为一个子模型,计算句子中候选实体词(未登录词)的观察值概率,用于隐马尔可夫模型Viterbi算法搜索最佳的句子标注序列。本文识别内容主要分为两类:一是实体词识别,包括人名、地名和组织名的识别,这部分是本文的主要部分;二是数词和时间词识别,在识别第一部分实体词的基础和框架上完成。从实验结果来看,取得了较好的识别效果。目前,该实验系统还处在初级阶段,不少工作还有待进一步完善,比如最大熵模型特征的扩充和完善,语言知识和规则的扩充都需要从大规模的真实语料中提取。在今后的工作中,我们将深入研究最大熵模型的特征选取和参数训练问题,进一步提高命名实体识别的效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 韩普;姜杰;;HMM在自然语言处理领域中的应用研究[J];计算机技术与发展;2010年02期
2 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
3 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期
4 余传明;黄建秋;郭飞;;从客户评论中识别命名实体——基于最大熵模型的实现[J];现代图书情报技术;2011年05期
5 王丹;樊兴华;;面向短文本的命名实体识别[J];计算机应用;2009年01期
6 冯冲;陈肇雄;黄河燕;;采用主动学习策略的组织机构名识别[J];小型微型计算机系统;2006年04期
7 施德明;林洋港;陈恩红;;一种集成NER的文本分类特征选择方法[J];计算机工程与科学;2007年11期
8 滕青青;吉久明;郑荣廷;李楠;;基于文献的中文命名实体识别算法适用性分析研究[J];情报杂志;2010年09期
9 向晓雯,史晓东,曾华琳;一个统计与规则相结合的中文命名实体识别系统[J];计算机应用;2005年10期
10 邹涛;;一种电子产品领域命名实体识别方法研究[J];情报学报;2010年06期
11 张玥杰;徐智婷;薛向阳;;融合多特征的最大熵汉语命名实体识别模型[J];计算机研究与发展;2008年06期
12 王鹏程;;词性标注中隐马尔可夫模型的改进[J];河南财政税务高等专科学校学报;2009年04期
13 乔羽 ,杨尔弘;特征选择在人名识别中的应用[J];电脑开发与应用;2005年06期
14 曲晓棠;沈晓红;;基于最大熵模型的中文命名实体识别研究[J];科技信息(学术研究);2008年30期
15 曹波;苏一丹;邓琦;;基于最大熵模型的中国人名自动识别[J];计算机工程与应用;2009年04期
16 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
17 蔡晓白;樊孝忠;;疾病命名短语识别的最大熵方法[J];北京理工大学学报;2006年06期
18 王昊;苏新宁;;基于模式匹配的中文通用本体概念抽取模型[J];情报理论与实践;2008年02期
19 赵洁;刘彦宏;金培权;;基于互联网的商业机构名识别研究[J];情报学报;2011年08期
20 庞宁;杨尔弘;;基于最大熵模型的共指消解研究[J];中文信息学报;2008年02期
中国重要会议论文全文数据库 前10条
1 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
3 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
4 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
5 廖先桃;于海滨;秦兵;刘挺;;HMM与自动规则提取相结合的中文命名实体识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 赵伟;赵法兴;王东海;韩达奇;;一种基于改进的最大熵模型的汉语词性自动标注的新方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
7 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
9 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
10 费玉莲;凌云;王勋;;基于增强隐马尔可夫模型的视频数据挖掘研究[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
3 李杰;隐马尔可夫模型的研究及其在图像识别中的应用[D];清华大学;2004年
4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
5 刘小军;人脸识别技术研究[D];中国科学院电子学研究所;2001年
6 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
7 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
8 肖文斌;基于耦合隐马尔可夫模型的滚动轴承故障诊断与性能退化评估研究[D];上海交通大学;2011年
9 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
10 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
2 张剑;基于CRF的英文命名实体识别研究[D];哈尔滨工业大学;2006年
3 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
4 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
5 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
6 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
7 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
8 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
9 武玉洲;汉语文本人名识别改进方法研究[D];北京语言大学;2007年
10 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
中国重要报纸全文数据库 前3条
1 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年
2 晓业;TTS提升基金CIC服务[N];计算机世界;2002年
3 北京大学信息科学中心视觉与听觉信息处理国家重点实验室 吴玺宏;声纹识别听声辨人[N];计算机世界;2001年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978