收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术

俞鸿魁  
【摘要】:本文提出了一种基于层次隐马尔可夫模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和命名实体识别集成到一个完整的理论框架中。在分词方面,采取的是基于类的隐马尔可夫模型,在这层隐马尔可夫模型中,命名实体和词典中收录的普通词一样处理。命名实体识别引入了角色HMM:Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识别出命名实体,并计算出真实的可信度。在切分排歧方面,采用一种基于N-最短路径的策略,即:在早期阶段召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性标注之后,从N个最有潜力的候选结果中选优得到。不同层面的实验表明,层次隐马模型的各个层面对汉语词法分析都发挥了积极的作用。作者参与了基于层次隐马尔可夫模型的汉语词法分析系统ICTCLAS的开发,该系统在2002年的973专家组评测中获得第一名,在2003年汉语特别兴趣研究组(the ACL Special Interest Group on Chinese Language Processing, SIGHAN)组织的第一届国际汉语分词大赛中综合得分获得两项第一名、一项第二名。这表明:ICTCLAS是目前最好的汉语 WP=4 词法分析系统之一,层次隐马尔可夫模型能够解决好汉语词法问题。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 向晓雯,史晓东,曾华琳;一个统计与规则相结合的中文命名实体识别系统[J];计算机应用;2005年10期
2 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
3 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
4 赵军;;命名实体识别、排歧和跨语言关联[J];中文信息学报;2009年02期
5 郑强;刘齐军;王正华;朱云平;;生物医学命名实体识别的研究与进展[J];计算机应用研究;2010年03期
6 张向喆;王明辉;赵洪波;王起山;潘玉春;;生物医学文本中命名实体识别研究[J];上海交通大学学报(农业科学版);2010年02期
7 孙镇;王惠临;;命名实体识别研究进展综述[J];现代图书情报技术;2010年06期
8 滕青青;吉久明;郑荣廷;李楠;;基于文献的中文命名实体识别算法适用性分析研究[J];情报杂志;2010年09期
9 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
10 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
11 姜文志;顾佼佼;胡文萱;王彦;;基于多模型结合的军事命名实体识别[J];兵工自动化;2011年10期
12 罗芳;熊前兴;肖敏;;基于本体的产品命名实体识别研究[J];武汉理工大学学报(信息与管理工程版);2011年06期
13 钱哲怡;李芳;;基于关键词和命名实体识别的新闻话题线索抽取[J];计算机应用与软件;2011年12期
14 吴丹;何大庆;陆伟;;跨语言信息检索中的命名实体识别与翻译[J];图书情报知识;2012年03期
15 高强;游宏梁;;基于层叠模型的国防领域命名实体识别研究[J];现代图书情报技术;2012年11期
16 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期
17 冯元勇;孙乐;张大鲲;李文波;;基于小规模尾字特征的中文命名实体识别研究[J];电子学报;2008年09期
18 闫萍;;基于规则和概率统计相结合的中文命名实体识别研究[J];计算机与数字工程;2011年09期
19 陈钰枫;宗成庆;苏克毅;;汉英双语命名实体识别与对齐的交互式方法[J];计算机学报;2011年09期
20 邱泉清;苗夺谦;张志飞;;中文微博命名实体识别[J];计算机科学;2013年06期
中国重要会议论文全文数据库 前10条
1 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
2 付瑞吉;车万翔;刘挺;;一种基于分类方法的音乐命名实体识别技术[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
3 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 王浩畅;赵铁军;刘延力;于浩;;生物医学文本中命名实体识别的智能化方法[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
6 李治国;周俏丽;;在篇章中面向产品类的命名实体识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 徐薇;付滨;刘柳;苑春法;李文捷;;中文命名实体识别系统的领域扩展[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 王浩畅;赵铁军;李艳;;生物医学命名实体识别的特征选取与评价[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 刘非凡;赵军;吕碧波;于浩;夏迎炬;;面向商务信息抽取的产品命名实体识别研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前7条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
3 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
4 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
5 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
6 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
7 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
中国硕士学位论文全文数据库 前10条
1 刘海鹏;面向手机短信的命名实体识别研究[D];北京邮电大学;2009年
2 邹涛;一种电子产品领域命名实体识别方法研究[D];西安电子科技大学;2010年
3 张学清;规则与统计相结合的音乐领域命名实体识别[D];电子科技大学;2010年
4 陈晖;半监督的命名实体识别[D];北京交通大学;2011年
5 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
6 付春元;汉语嵌套命名实体识别方法研究[D];黑龙江大学;2011年
7 夏涵;基于本体的医学命名实体识别技术研究[D];上海交通大学;2012年
8 范文婷;生物医学领域的命名实体识别和标准化[D];大连理工大学;2013年
9 荀晶;面向微博数据的命名实体识别研究与实现[D];东北大学;2013年
10 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978