收藏本站
《浙江大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

汉语自动分词和中文人名识别技术研究

熊冬明  
【摘要】:汉语自动分词和命名实体识别是自然语言处理和计算语言学领域中的重要 内容,它的研究和实现具有重要的理论意义和实用价值。随着计算机对大量真实 文本处理的迫切需要,对分词和命名实体识别的要求也显得日益迫切,由于它的 研究结果直接影响到语法分析、语义分析、语音识别、机器翻译、信息检索、信 息过滤等诸多领域的研究,因此,一直引起人们的关注。 同其它语言相比,汉语的自动分词和命名实体识别有其特有的难点。目前, 汉语自动分词和命名实体识别的处理结果还不尽如人意。本文对汉语自动分词和 作为命名实体识别子问题的中文人名识别这两个问题进行了研究,提出了统计方 法框架下汉语自动分词和中文人名识别模型。 具体的讲,本文做的主要工作是: 提出了一种将汉语分词、切分排歧、词性标注和人名识别完整集成的层次框 架。首先通过对文本中前位切分字和后位切分字的查找,将汉语自动分词问题归 约为对字段的切分问题。在粗切分阶段,基于N-best策略,将最大概率分词方 法产生的最佳N个结果作为候选集,作为下一阶段处理的评估对象,目的是尽 可能多的覆盖歧义字段,提高召回率。基于语言的词类具有相对稳定的分布这一 特征,我们结合了词的词性和词性间的搭配,应用HMM模型对N个粗分结果 进行评估,选取最优的一个结果作为分词的中间结果,中文人名的识别在这个中 间结果上进行。我们将构成人名的各个特征看作是一种词性,将其纳入整个词性 标注的过程中,利用HMM模型对分词的中间结果进行词性标注,最终在词性序 列中匹配出符合规则的中文人名。后续处理可得到最终的分词结果和词性标注序 列。 本模型层次分明,易于理解,实验表明,该模型也是一种行之有效的汉语分 词和中文人名识别方法。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.43

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 张瑞;李跃新;洪宗祥;;基于关系树的知识查询算法研究[J];电子设计工程;2012年20期
2 洪宗祥;李跃新;;基于关系树的知识查询算法研究[J];湖北大学学报(自然科学版);2012年03期
中国硕士学位论文全文数据库 前5条
1 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
2 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
3 蒋才智;中文自动分词及人名识别技术研究[D];合肥工业大学;2011年
4 李小龙;SSBS中文分词处理系统的研究[D];湖北工业大学;2010年
5 薛征;基于改进TF-IDF的文本信息热点话题发现[D];武汉邮电科学研究院;2009年
【参考文献】
中国期刊全文数据库 前10条
1 王秀坤,李政,简幼良,刘剑;基于Hash方法的机器翻译词典的组织与构造[J];大连理工大学学报;1996年03期
2 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
3 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
4 张锋,樊孝忠,许云;基于统计的中文姓名识别方法研究[J];计算机工程与应用;2004年10期
5 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
6 孙茂松,肖明,邹嘉彦;基于无指导学习策略的无词表条件下的汉语自动分词[J];计算机学报;2004年06期
7 牛正雨,柴佩琪;文语转换系统中的中文姓名识别[J];计算机应用研究;2001年01期
8 付国宏,王平,王晓龙;汉语分词和词性标注一体化分析的方法研究[J];计算机应用研究;2001年07期
9 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
10 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
中国硕士学位论文全文数据库 前2条
1 胡业江;中文姓名自动识别技术研究[D];华侨大学;2005年
2 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
2 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
3 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
4 唐振民,靳从,杨静宇;档案文献主题词微机自动标引系统[J];兵工自动化;1993年02期
5 王玉美,阮晓钢;基于人的语言认知行为的汉语文法分析专家系统[J];北京工业大学学报;2003年01期
6 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
7 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
8 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
9 张晨;祁坤钰;;基于Penn Treebank英语标注集对《圣经》标注集的扩充研究[J];才智;2009年20期
10 史永刚;左志宏;;决策树在中文姓名信息提取中的应用研究[J];成都信息工程学院学报;2006年02期
中国重要会议论文全文数据库 前10条
1 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
3 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 刮俊杰;吴树国;伊胜伟;;基于词效应的中文术语提取方法[A];第三届中国智能计算大会论文集[C];2009年
5 贺前华;徐秉铮;;神经网络在汉语自动分词中的应用[A];第二届全国人机语音通讯学术会议论文集[C];1992年
6 付国宏;王晓龙;龚永红;;基于词形的汉语文本切分方法[A];第五届全国人机语音通讯学术会议论文集[C];1998年
7 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
8 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
9 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
10 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
中国博士学位论文全文数据库 前10条
1 李滨;自然空间查询语言解译机制研究[D];解放军信息工程大学;2009年
2 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
3 方清明;现代汉语名名复合形式的认知语义研究[D];暨南大学;2011年
4 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
5 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
6 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
7 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
8 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
9 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
10 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
中国硕士学位论文全文数据库 前10条
1 吕韶华;面向中文评论文本的情感倾向性研究[D];大连理工大学;2010年
2 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
3 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
4 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
5 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
6 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
7 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
8 王有权;基于Web的智能答疑技术研究与实现[D];南京财经大学;2010年
9 江涛;基于藏文web舆情分析的热点发现算法研究[D];西北民族大学;2010年
10 苏俊峰;基于HMM的藏语语料库词性自动标注研究[D];西北民族大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
2 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
3 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
4 文庭孝;情报检索中汉语语词自动切分研究[J];图书与情报;2001年02期
5 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
6 田占霄;韩宪忠;王克俭;;一种改进的长词优先逆向最大匹配分词消歧策略[J];河北农业大学学报;2009年04期
7 吴登堂;关于字母词的思考——兼谈中文信息处理对字母词自动切分的构想[J];丹东师专学报;2003年02期
8 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
9 吴静,蔡砥,王铮;地理信息系统中自然语言查询的分词处理与应用[J];地球信息科学;2005年03期
10 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报(自然科学版);2003年02期
中国博士学位论文全文数据库 前1条
1 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
中国硕士学位论文全文数据库 前10条
1 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
2 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
3 李健;聚类分析及其在文本挖掘中的应用[D];西安电子科技大学;2005年
4 胡业江;中文姓名自动识别技术研究[D];华侨大学;2005年
5 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
6 杨超;基于最大匹配的书面汉语自动分词研究[D];湖南大学;2004年
7 张晓淼;基于神经网络的中文分词算法的研究[D];大连理工大学;2006年
8 刘宽;现代汉语自动分词歧义分析及其消歧处理研究[D];兰州理工大学;2006年
9 贺胜;面向现代汉语文本处理的全文检索、自动分词通用系统[D];南京师范大学;2006年
10 黄立冬;基础教育资源搜索引擎中的中文分词技术研究[D];南京师范大学;2006年
【二级引证文献】
中国期刊全文数据库 前1条
1 李小平;任恩恩;;异构数据库相似语义属性聚类过程研究[J];铁道科学与工程学报;2012年02期
【二级参考文献】
中国期刊全文数据库 前10条
1 简幼良,黄德根;中日英兼容汉字操作系统NiHao-FP的设计与实现[J];大连理工大学学报;1992年05期
2 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
3 王轩,李巍,王晓龙,赵淑香;大标记集汉语字(词)Markov 语言模型的建立[J];哈尔滨工业大学学报;1997年05期
4 刘小虎,李生,赵铁军;词典的模糊查询和单词的快速录入[J];哈尔滨工业大学学报;1997年05期
5 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
6 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
7 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
8 邹涛;王继成;杨文清;张福炎;;文本信息检索技术[J];计算机科学;1999年09期
9 林鸿飞;贡大跃;张跃;姚天顺;;可视化中文文本挖掘模型[J];计算机科学;2000年04期
10 王力红,杨剑,李洪,李云波,孙亚萍;汉语智能接口的自动分词研究[J];计算机工程;2001年08期
中国重要会议论文全文数据库 前1条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期
2 吴东峥;;基于统计的开放式汉语自动分词[J];福建电脑;2009年03期
3 王希杰;赵晓凡;;浅谈汉语自动分词的几种方法[J];价值工程;2011年13期
4 殷建平;汉语自动分词方法[J];计算机工程与科学;1998年03期
5 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
6 陈湘柳;;汉语自动分词理论对英语教学的启示[J];榆林学院学报;2010年01期
7 梁南元;书面汉语自动分词综述[J];计算机应用与软件;1987年03期
8 文庭孝,邱均平,侯经川;汉语自动分词研究展望[J];现代图书情报技术;2004年07期
9 邱均平,文庭孝,周黎明;汉语自动分词与内容分析法研究[J];情报学报;2005年03期
10 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
中国重要会议论文全文数据库 前10条
1 孙茂松;;汉语自动分词研究及其应用:回顾与展望[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
2 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 曲维光;;解决汉语自动分词的方法选择[A];第一届学生计算语言学研讨会论文集[C];2002年
4 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
5 贺前华;徐秉铮;;神经网络在汉语自动分词中的应用[A];第二届全国人机语音通讯学术会议论文集[C];1992年
6 侯敏;陈琼璜;初田天;李湛;王瑜;叶立;;汉语自动分词中的上下文相关歧义字段(CSAS)研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 庄丽;包塔;朱小燕;;盲人用计算机软件系统中的语音和自然语言处理技术[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
8 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 廉竹钧;;汉语组合型切分歧义字段消歧方法研究[A];第一届学生计算语言学研讨会论文集[C];2002年
10 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前2条
1 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
2 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
中国硕士学位论文全文数据库 前10条
1 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
2 程晓静;自然语言处理在药物专利检索系统中的应用[D];大连理工大学;2004年
3 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
4 代建英;汉语自动分词系统的研究与实现[D];重庆大学;2005年
5 胡可;基于人工免疫系统的信息过滤技术研究[D];西南交通大学;2006年
6 熊冬明;汉语自动分词和中文人名识别技术研究[D];浙江大学;2006年
7 潘景剑;具有中文人名识别功能的汉语自动分词算法研究[D];河北工业大学;2006年
8 唐培丽;基于语义的汉语文本主题词提取算法研究与实现[D];吉林大学;2005年
9 王广正;基于知网语义相关度计算的汉语自动分词方法的研究[D];云南师范大学;2006年
10 杨治秋;专题搜索引擎关键技术的研究[D];燕山大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026