收藏本站
《山西大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于类比学习的人名识别方法研究

朱丽丽  
【摘要】: 在人们利用计算机技术自动处理海量信息的大背景下,信息检索、信息抽取、机器翻译、文摘生成等技术应运而生。命名实体识别是对文本自动处理的前提工作,它的质量会直接影响到后续的一系列工作。虽然命名实体识别技术已经相当成熟,然而从评测的结果来看,中文命名实体的识别还远不能满足应用的需求。因为这里存在着技术、资源、应用需求之间有机结合的问题。 人名和其它命名实体一样,具有开放性和发展性的特点,而且表现形式极其丰富,给其识别带来了一定的困难。包括人名识别在内的命名实体识别问题已经成为词法分析使用化的主要瓶颈。人名识别作为命名实体识别的子任务,是自然语言处理领域的一个重要而困难的问题。 在本文中,我们以人名(包括汉族人名和译名)为研究对象,提出了一种基于类比学习的人名识别方法。该方法通过用人名实例描述语言现象,尝试性的将类比学习的方法应用于人名识别问题,取得了较好的效果。主要的研究内容有以下几方面: 1.通过对真实语料的统计,深入分析了人名的内部特征和上下文环境特征,为类比学习方法应用到人名识别问题建立了语言学基础。同时,建立了基于真实语料的人名资源库,包括姓氏用字库、名字用字库、译名用字库和特征词库等。此外,还使用了《知网》作为语义资源,对特征词进行了语义扩充。 2.建立了人名实例库。在实例向量化的过程中,不仅考虑了人名的内部结构,而且加入了人名上下文环境信息,即实例向量中包含了人名的内部结构和上下文结构,较好地综合利用了各种启发信息。 3.按照类比学习识别人名的策略,设计实现了一个人名识别实验系统。通过计算实例间的相似度,选择最为相似的实例,进行类比匹配,从而识别人名。 4.提出了一种改进的实例相似度计算方法。我们针对人名识别过程中的不同阶段,提出了两个层次的实例相似度计算方法。在实例库的构建阶段,实例相似度以公共子序列来衡量;在人名识别阶段,不仅考虑了公共子序列,而且加入了结构信息。 我们从人民日报语料中选取50万字的文本进行开放测试,其实验结果表明该方法识别人名的召回率达到90.86%,准确率达到86.45%,从而证明基于类比学习的人名识别方法的有效性。
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.1

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前3条
1 杨丽英;基于主题要素的突发事件后续报道追踪方法研究[D];山西大学;2008年
2 闫萍;基于统计与规则相结合的命名实体识别研究[D];河南工业大学;2012年
3 王欢;基于模式匹配的互联网监听技术研究[D];长春理工大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
2 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
3 秦兵,刘挺,王洋,郑实福,李生;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
4 张锋,樊孝忠,许云;基于统计的中文姓名识别方法研究[J];计算机工程与应用;2004年10期
5 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
6 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期
7 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
8 郑家恒,张辉;基于HMM的中国组织机构名自动识别[J];计算机应用;2002年11期
9 向晓雯,史晓东,曾华琳;一个统计与规则相结合的中文命名实体识别系统[J];计算机应用;2005年10期
10 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
中国硕士学位论文全文数据库 前3条
1 王兴义;基于模式匹配的中文专有名词识别[D];山西大学;2005年
2 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
3 王志强;基于条件随机域的中文命名实体识别研究[D];南京理工大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
2 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
3 刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期
4 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
5 陈康;樊孝忠;刘杰;贾可亮;;基于问句语义表征的中文问句相似度计算方法[J];北京理工大学学报;2007年12期
6 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期
7 史永刚;左志宏;;决策树在中文姓名信息提取中的应用研究[J];成都信息工程学院学报;2006年02期
8 陈晓明;梁雄友;;一种实用的PCFG多阶段全局寻优句法分析算法[J];长春理工大学学报(自然科学版);2010年02期
9 李建平;王慧强;卢爱平;郝洪亮;冯光升;;基于条件随机场的网络安全态势量化感知方法[J];传感器与微系统;2010年10期
10 马照亭;李志刚;孙伟;印洁;;一种基于地址分词的自动地理编码算法[J];测绘通报;2011年02期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 何正焱;王厚峰;;商品品牌名称挖掘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
4 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
5 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
6 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
7 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
8 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
9 戴祖旭;洪帆;;基于词性标记文法的文本信息隐藏算法[A];第四届中国软件工程大会论文集[C];2007年
10 张霄军;;“长安”的同名地名自动识别与指代消解[A];陕西省社会科学界第二届(2008)学术年会——青年博士论坛“陕西新起点:创新·发展·民生”专题获奖论文选编[C];2008年
中国博士学位论文全文数据库 前10条
1 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
2 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
3 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
4 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
5 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
6 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
7 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
8 张浩;视频运动人体行为识别与分类方法研究[D];西安电子科技大学;2011年
9 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
10 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
3 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
4 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
5 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
6 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
7 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
8 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
9 王有权;基于Web的智能答疑技术研究与实现[D];南京财经大学;2010年
10 苏俊峰;基于HMM的藏语语料库词性自动标注研究[D];西北民族大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 庞辽军;焦李成;王育民;;无线传感器网络节点间认证及密钥协商协议[J];传感技术学报;2008年08期
2 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
3 刘群;;机器翻译研究新进展[J];当代语言学;2009年02期
4 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
5 陈杰;;网络监听技术研究[J];电脑知识与技术;2009年12期
6 易平,蒋嶷川,张世永,钟亦平;移动ad hoc网络安全综述[J];电子学报;2005年05期
7 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
8 陈丛;;Hash算法原理及在快速检索中的应用[J];福建电脑;2009年11期
9 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
10 李民;一种基于NE2000以太网的网络侦听监控技术[J];舰船电子对抗;2000年03期
中国硕士学位论文全文数据库 前10条
1 聂娟;基于内容审计的协议分析方法研究[D];吉林大学;2011年
2 王兴义;基于模式匹配的中文专有名词识别[D];山西大学;2005年
3 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
4 柳楠;针对“虫洞”攻击的移动Ad hoc网安全路由及仿真实现的研究[D];山东大学;2005年
5 王志强;基于条件随机域的中文命名实体识别研究[D];南京理工大学;2006年
6 肖光华;网络监听技术的研究与应用[D];同济大学;2006年
7 朱江涛;中文信息处理中命名实体识别问题的研究[D];沈阳航空工业学院;2006年
8 乔思远;基于DMA_ring的高速网络报文捕获机制的实现及应用[D];山东大学;2007年
9 乔永波;规则与统计相结合的中文命名实体识别[D];山东大学;2007年
10 袁晖;基于snort的入侵检测系统在校园网中的应用研究[D];上海交通大学;2007年
【二级引证文献】
中国期刊全文数据库 前1条
1 李树平;范书平;李胜东;司巧梅;曹英;;话题跟踪研究[J];微计算机信息;2012年10期
中国博士学位论文全文数据库 前1条
1 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前2条
1 王岩;面向金融领域BBS的话题发现和热度评价[D];哈尔滨工业大学;2010年
2 张美珍;话题检测与跟踪算法的研究[D];北京交通大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 张建平;语音识别与理解的语言统计模型和搜索算法[J];电子科技导报;1999年09期
2 王勇,张建高,张宗益;类比修正寻优方法[J];重庆大学学报(自然科学版);2001年01期
3 张仰森,徐波,曹元大;自然语言处理中的语言模型及其比较研究[J];广西师范大学学报(自然科学版);2003年01期
4 高升,贾文举,王晓龙,姜亚学;一个基于互信息的规则量化方法[J];计算机研究与发展;2000年08期
5 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
6 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
7 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
8 文贵华,丁月华,张宇;基于对立的联想计算[J];计算机研究与发展;1999年08期
9 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
10 张仰森,徐波,曹元大,宗成庆;基于姓氏驱动的中国姓名自动识别方法[J];计算机工程与应用;2003年04期
中国重要会议论文全文数据库 前1条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 梁晓诚;岳晓光;麦范金;赵子强;路英;王挺;;基于NLP技术和相似度计算的智能搜索引擎研究[J];昆明理工大学学报(理工版);2010年04期
2 田甜;张振国;;主观题自动阅卷技术研究[J];计算机工程与设计;2010年16期
3 麦范金;岳晓光;赵子强;路英;王挺;岳砥柱;;基于自然语言处理的智能评分系统[J];桂林理工大学学报;2010年03期
4 吉胜军;;基于Levenshtein distance算法的句子相似度计算[J];电脑知识与技术;2009年09期
5 仲兆满;刘宗田;周文;付剑锋;;基于事件的文本相似度计算[J];广西师范大学学报(自然科学版);2009年01期
6 周法国;杨炳儒;;句子相似度计算新方法及在问答系统中的应用[J];计算机工程与应用;2008年01期
7 杨思春;;一种改进的句子相似度计算模型[J];电子科技大学学报;2006年06期
8 南铉国;崔荣一;;基于多层次融合的语句相似度计算模型[J];延边大学学报(自然科学版);2007年03期
9 江耿豪;;基于VisualProlog的自动答疑系统设计与实现[J];现代教育技术;2010年07期
10 毛鑫;李艳梅;黄伟;;基于文本相似度的中文文本聚类的研究[J];中国电力教育;2009年S1期
中国重要会议论文全文数据库 前10条
1 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 刘宝艳;林鸿飞;杨志豪;;基于改进编辑距离和依存结构的句子相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
3 朱丽丽;郑家恒;;一种基于实例学习的人名识别方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
5 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
7 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
3 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
4 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
5 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
6 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
7 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
8 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
10 李茹;汉语句子框架语义结构分析技术研究[D];山西大学;2012年
中国硕士学位论文全文数据库 前10条
1 朱丽丽;基于类比学习的人名识别方法研究[D];山西大学;2007年
2 刘岩;基于概念图的中文语义分析系统的研究与实现[D];西北大学;2008年
3 王利局;基于语义分析树核的句子相似度计算[D];大连理工大学;2008年
4 唐琦;基于语义分析的句子相似度计算研究[D];华北电力大学(北京);2009年
5 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年
6 杨国基;汉语中基于短语结构的语义提取[D];天津大学;2007年
7 柴晓丽;自动文摘技术的研究与应用[D];长春理工大学;2007年
8 陈锐;基于概念图的信息检索查询扩展模型研究与实现[D];西北大学;2009年
9 杨聪;基于口语对话的电话自动转接与信息查询技术研究[D];国防科学技术大学;2004年
10 李国佳;汉语全文相似度计算的研究及应用[D];电子科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026