收藏本站
《山西大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于最大熵模型的中文人名识别方法研究

乔羽  
【摘要】:命名实体识别一直是自然语言处理领域的研究焦点之一,对信息抽取、问答系统、机器翻译等方面的研究有着十分重要的价值。虽然命名实体识别技术已经相当成熟,然而从评测的结果来看,中文命名实体的识别还远不能满足应用的需求,因为这里存在着技术、资源、应用需求之间有机结合的问题。 中文人名识别是汉语命名实体识别的一个子问题。目前,国内对中文人名识别的研究或者仅限于单纯进行汉语姓名识别,或者仅限于单纯的译名识别,而将汉语姓名和译名统一起来进行识别的研究却还不多,且不能够满足应用的需求。 本文基于最大熵模型,探索性地构建了一个能够对中文文本中各类人名进行统一识别的中文人名识别系统,取得了较好的效果。本文主要研究了以下几个方面的问题: 1.特征抽取及选择。在分析真实语料的基础上,本文提出了适合中文人名的特征集,并通过实验进行特征选择,确定了有效特征。 2.潜在人名发现。本文在传统人名用字概率信息方法的基础上,提出了一种平滑处理机制,保证了潜在人名发现召回率在99%以上;同时通过制定灵活的阈值选取规则,在保证召回率的基础上尽量提高潜在人名发现的精确率,在一定程度上减少了对模型标注的干扰。该方法不仅可召回由单字碎片组成的人名,还适用于人名内部成词和上下文成词的情况。
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.41

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 王卫平;杨磊;;结合最大熵模型和tag特征的混合推荐系统[J];计算机系统应用;2011年07期
2 余传明;黄建秋;郭飞;;从客户评论中识别命名实体——基于最大熵模型的实现[J];现代图书情报技术;2011年05期
3 康旭珍;李茹;李双红;;框架元素语义核心词自动识别研究[J];中文信息学报;2011年04期
4 赵文娟;闫红梅;王蔚林;;基于汉语框架网的语义角色标注算法[J];图书情报工作;2011年06期
5 霍亚格;黄广君;;基于最大熵的汉语短语结构识别方法[J];计算机工程;2011年16期
6 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
7 谭魏璇;孔芳;倪吉;周国栋;;基于混合统计模型的中文基本名词短语识别[J];计算机应用与软件;2011年08期
8 谭咏梅;王小捷;钟义信;;模式识别课程的教学探索[J];计算机教育;2011年15期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 赵伟;赵法兴;王东海;韩达奇;;一种基于改进的最大熵模型的汉语词性自动标注的新方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 朱江涛;赵丽奎;蔡东风;;基于最大熵模型的中文姓名识别方法初探[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 冯娟娟;李晗静;李生;;基于句法分析的中文语义角色标注实现[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 孙涌;韦小丽;;领域本体构建研究及在专利信息服务中的应用[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
5 辛霄;范士喜;王轩;王晓龙;;基于最大熵的依存句法分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 刘方舟;施勤;陶建华;;基于最大熵模型的多音字消歧[A];第九届全国人机语音通讯学术会议论文集[C];2007年
7 于江德;王希杰;余正涛;;基于最大熵模型的语义角色标注[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
8 陈文亮;朱慕华;朱靖波;姚天顺;;基于Bootstrapping的文本分类模型[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 李军辉;周国栋;朱巧明;钱培德;;基于层次模型的中文句法分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 谢永康;周雅倩;黄萱菁;;一种基于谱聚类的共指消解方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
2 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
3 秦莉娟;基于内容的自动视频监控研究[D];浙江大学;2006年
4 何奇瑾;我国玉米种植分布与气候关系研究[D];中国气象科学研究院;2012年
5 何奇瑾;我国玉米种植分布与气候关系研究[D];南京信息工程大学;2012年
6 刘文陆;基于激光热凝固效应的眼角膜屈光矫正原理及预测技术研究[D];武汉理工大学;2009年
7 段居琦;我国水稻种植分布及其对气候变化的响应[D];中国气象科学研究院;2012年
8 段居琦;我国水稻种植分布及其对气候变化的响应[D];南京信息工程大学;2012年
9 李茹;汉语句子框架语义结构分析技术研究[D];山西大学;2012年
10 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
2 梅灿华;基于最大熵模型的迁移学习算法研究[D];合肥工业大学;2011年
3 王慧;最大熵模型的语义句法分析在问答系统中的应用研究[D];大连交通大学;2010年
4 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
5 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
6 步海慧;基于最大熵模型的中文姓名识别研究[D];山东大学;2006年
7 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
8 彭其伟;基于统计方法的中文文本情感倾向分类研究[D];山西大学;2007年
9 熊冬明;汉语自动分词和中文人名识别技术研究[D];浙江大学;2006年
10 杨军玲;汉语动词词语搭配自动获取方法研究[D];山西大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026