收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于类比学习的人名识别方法研究

朱丽丽  
【摘要】: 在人们利用计算机技术自动处理海量信息的大背景下,信息检索、信息抽取、机器翻译、文摘生成等技术应运而生。命名实体识别是对文本自动处理的前提工作,它的质量会直接影响到后续的一系列工作。虽然命名实体识别技术已经相当成熟,然而从评测的结果来看,中文命名实体的识别还远不能满足应用的需求。因为这里存在着技术、资源、应用需求之间有机结合的问题。 人名和其它命名实体一样,具有开放性和发展性的特点,而且表现形式极其丰富,给其识别带来了一定的困难。包括人名识别在内的命名实体识别问题已经成为词法分析使用化的主要瓶颈。人名识别作为命名实体识别的子任务,是自然语言处理领域的一个重要而困难的问题。 在本文中,我们以人名(包括汉族人名和译名)为研究对象,提出了一种基于类比学习的人名识别方法。该方法通过用人名实例描述语言现象,尝试性的将类比学习的方法应用于人名识别问题,取得了较好的效果。主要的研究内容有以下几方面: 1.通过对真实语料的统计,深入分析了人名的内部特征和上下文环境特征,为类比学习方法应用到人名识别问题建立了语言学基础。同时,建立了基于真实语料的人名资源库,包括姓氏用字库、名字用字库、译名用字库和特征词库等。此外,还使用了《知网》作为语义资源,对特征词进行了语义扩充。 2.建立了人名实例库。在实例向量化的过程中,不仅考虑了人名的内部结构,而且加入了人名上下文环境信息,即实例向量中包含了人名的内部结构和上下文结构,较好地综合利用了各种启发信息。 3.按照类比学习识别人名的策略,设计实现了一个人名识别实验系统。通过计算实例间的相似度,选择最为相似的实例,进行类比匹配,从而识别人名。 4.提出了一种改进的实例相似度计算方法。我们针对人名识别过程中的不同阶段,提出了两个层次的实例相似度计算方法。在实例库的构建阶段,实例相似度以公共子序列来衡量;在人名识别阶段,不仅考虑了公共子序列,而且加入了结构信息。 我们从人民日报语料中选取50万字的文本进行开放测试,其实验结果表明该方法识别人名的召回率达到90.86%,准确率达到86.45%,从而证明基于类比学习的人名识别方法的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 梁晓诚;岳晓光;麦范金;赵子强;路英;王挺;;基于NLP技术和相似度计算的智能搜索引擎研究[J];昆明理工大学学报(理工版);2010年04期
2 田甜;张振国;;主观题自动阅卷技术研究[J];计算机工程与设计;2010年16期
3 麦范金;岳晓光;赵子强;路英;王挺;岳砥柱;;基于自然语言处理的智能评分系统[J];桂林理工大学学报;2010年03期
4 吉胜军;;基于Levenshtein distance算法的句子相似度计算[J];电脑知识与技术;2009年09期
5 仲兆满;刘宗田;周文;付剑锋;;基于事件的文本相似度计算[J];广西师范大学学报(自然科学版);2009年01期
6 周法国;杨炳儒;;句子相似度计算新方法及在问答系统中的应用[J];计算机工程与应用;2008年01期
7 杨思春;;一种改进的句子相似度计算模型[J];电子科技大学学报;2006年06期
8 南铉国;崔荣一;;基于多层次融合的语句相似度计算模型[J];延边大学学报(自然科学版);2007年03期
9 江耿豪;;基于VisualProlog的自动答疑系统设计与实现[J];现代教育技术;2010年07期
10 毛鑫;李艳梅;黄伟;;基于文本相似度的中文文本聚类的研究[J];中国电力教育;2009年S1期
11 黄承慧;印鉴;侯昉;;一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J];计算机学报;2011年05期
12 赖擎;曹力立;;受限领域中文问答系统的中心句识别的研究[J];计算机时代;2006年02期
13 王萌;李春贵;唐培和;王晓荣;;一种主题句发现的中文自动文摘研究[J];计算机工程;2007年08期
14 李生琦;田巧燕;汤承;;基于《〈知网〉》词汇语义相关度计算的消歧方法[J];情报学报;2009年05期
15 程显毅;潘燕;朱倩;孙萍;;面向事件的多文档文摘生成算法的研究[J];广西师范大学学报(自然科学版);2011年01期
16 赵军;黄昌宁;;基于例子的基本名词短语识别中词语分布相似度的研究[J];模式识别与人工智能;1998年02期
17 王波;薛媛媚;;网上销售常问问答系统的构建[J];软件导刊;2009年02期
18 李伟;;中文语句相似度计算的方法初探[J];兰州工业高等专科学校学报;2009年04期
19 焦健;瞿有利;;知网的话题更新与跟踪算法研究[J];北京交通大学学报;2009年05期
20 买志玉;金澎;曾赛;;基于大规模语料库的汉语词相似计算[J];中原工学院学报;2010年03期
中国重要会议论文全文数据库 前10条
1 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 刘宝艳;林鸿飞;杨志豪;;基于改进编辑距离和依存结构的句子相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
3 朱丽丽;郑家恒;;一种基于实例学习的人名识别方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
5 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
7 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
3 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
4 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
5 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
6 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
7 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
8 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
10 李茹;汉语句子框架语义结构分析技术研究[D];山西大学;2012年
中国硕士学位论文全文数据库 前10条
1 朱丽丽;基于类比学习的人名识别方法研究[D];山西大学;2007年
2 刘岩;基于概念图的中文语义分析系统的研究与实现[D];西北大学;2008年
3 王利局;基于语义分析树核的句子相似度计算[D];大连理工大学;2008年
4 唐琦;基于语义分析的句子相似度计算研究[D];华北电力大学(北京);2009年
5 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年
6 杨国基;汉语中基于短语结构的语义提取[D];天津大学;2007年
7 柴晓丽;自动文摘技术的研究与应用[D];长春理工大学;2007年
8 陈锐;基于概念图的信息检索查询扩展模型研究与实现[D];西北大学;2009年
9 杨聪;基于口语对话的电话自动转接与信息查询技术研究[D];国防科学技术大学;2004年
10 李国佳;汉语全文相似度计算的研究及应用[D];电子科技大学;2011年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978