收藏本站
《电子科技大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

汉语语言处理中专有名词的提取和识别

周波  
【摘要】: 为了让计算机具有处理甚至理解自然语言的能力,人们发明了很多自然语言语义分析理论。而在汉语的计算机处理中,大部分的语义分析都是以汉语分词作为基础。目前,很多的汉语分词方法都已经被发明出来,但无论使用哪一种分词方法,都会碰到分词歧义现象。在分词歧义现象中,有很大一部分又是由于句子中的专有名词引起。专有名词存在新词出现快,成词无固定规则,容易变化等特点,给汉语分词带来了很大的干扰,使专有名词的识别成为汉语分词的一大瓶颈。 本论文主要致力于解决汉语分词中的专有名词识别问题。文章首先介绍了计算机自然语言处理,特别是汉语的计算机处理的现状以及目前汉语分词中使用的专有名词识别方法。接着本文详细讨论了专有名词识别系统所使用的识别算法:首先将专有名词分成了两类:一类是稳定的专有名词,此类名词具有长时间和较大范围存在的特点。另一类是容易变化的专有名词,这类名词新词出现速度快,并且没有明显的规律可循,这类名词主要就是中国人名。然后对这两类专有名词设计不同的识别方法:对第一类专有名词使用的基于专有名词词库的识别算法;对第二类专有名词使用的基于朴素贝叶斯分类的识别算法。然后,文章详细介绍了基于所讨论的识别算法的专有名词识别系统设计。本专有名词识别系统设计的介绍按以下流程进行:首先介绍本系统的整体识别流程;然后再介绍系统的静态结构,包括类和包的分布关系、每个类的作用、类之间的引用关系和继承关系以及本系统与汉语语言处理系统的静态接口;接着在系统的静态结构的基础上详细介绍系统的动态运行流程,主要包括各个类之间的函数调用关系。 最后本文给出了识别系统对专有名词识别结果并对结果进行了分析,以验证本专有名词识别系统的识别能力并发掘系统还有待改进和提高的地方。总的来说,本专有名词识别系统有相当好的识别能力,能识别出中文句子中的专有名词,达到了预期的设计目标和效果。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
2 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
3 蔡勇智;基于最大匹配分词算法的中文词语粗分模型[J];福建电脑;2005年09期
4 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
5 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
6 张仰森,徐波,曹元大,宗成庆;基于姓氏驱动的中国姓名自动识别方法[J];计算机工程与应用;2003年04期
7 张锋,樊孝忠,许云;基于统计的中文姓名识别方法研究[J];计算机工程与应用;2004年10期
8 苏菲,王丹力,戴国忠;基于标记的规则统计模型与未登录词识别算法[J];计算机工程与应用;2004年15期
9 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
10 李成城,赵述芳,刘建毅,钟义信;基于动态规划算法的专有名词切分[J];计算机应用研究;2005年07期
【共引文献】
中国期刊全文数据库 前10条
1 陈弋兰;王鸣;孙书诚;;朴素贝叶斯分类器的误差估计[J];安徽工程科技学院学报(自然科学版);2008年04期
2 陈弋兰;;基于朴素贝叶斯分类的图像消噪[J];安庆师范学院学报(自然科学版);2008年03期
3 白晓梅;张福利;;校园网中文搜索引擎系统的设计[J];鞍山师范学院学报;2006年06期
4 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
5 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
6 史永刚;左志宏;;决策树在中文姓名信息提取中的应用研究[J];成都信息工程学院学报;2006年02期
7 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
8 赵春红;高希龙;王柠;赵威;刘国华;;一种应用分治策略的中文分词方法[J];燕山大学学报;2009年05期
9 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
10 孙晓;黄德根;;基于最长次长匹配分词的一体化中文词法分析[J];大连理工大学学报;2010年06期
中国重要会议论文全文数据库 前10条
1 刮俊杰;吴树国;伊胜伟;;基于词效应的中文术语提取方法[A];第三届中国智能计算大会论文集[C];2009年
2 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
3 刘俊;张益肇;;基于统计的中文姓名提取方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年
4 那顺乌日图;雪艳;淑琴;敖日格乐;;蒙古文人名自动识别研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 隋福民;黄德根;;面向机器翻译的日语形态素解析方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 钱小飞;陈小荷;董宇;何晓丽;;面向大型叙事作品的指人成分识别[A];第三届学生计算语言学研讨会论文集[C];2006年
7 陈晓苏;邹园斌;张文珂;;全切分图与路径表达式在分词算法中的应用[A];第三届学生计算语言学研讨会论文集[C];2006年
8 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 王芳;万常选;;基于可信度的中文完整词自动识别[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 田生伟;吐尔根·依布拉音;禹龙;买合木提·木合买提;艾山·吾买尔;;EBMT中加权的维吾尔单词哈希表构造算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
3 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
4 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
5 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
6 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
7 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
8 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
9 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
10 雷震;基于事件的新闻报道分析技术研究[D];国防科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
2 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
3 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
4 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
5 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年
6 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
7 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年
8 张庐颖;基于粗糙集的K-means研究[D];北京交通大学;2011年
9 林渌;基于新闻主题模型的热点工作挖掘系统[D];浙江大学;2011年
10 李英伟;基于增量改进贝叶斯领域问句分类研究[D];昆明理工大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
2 高升,贾文举,王晓龙,姜亚学;一个基于互信息的规则量化方法[J];计算机研究与发展;2000年08期
3 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
4 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
5 张仰森,徐波,曹元大,宗成庆;基于姓氏驱动的中国姓名自动识别方法[J];计算机工程与应用;2003年04期
6 靳从,唐振民,杨静宇;自动标引中中文姓名的切分[J];计算机工程;2003年22期
7 齐璇,马红妹,陈火旺;汉语的语义分析研究[J];计算机工程与科学;2001年03期
8 殷建平;汉语自动分词方法[J];计算机工程与科学;1998年03期
9 王厚峰,戴大为;基于语料库句法结构分析的动态规划模型[J];计算机学报;1999年10期
10 吴栋,滕育平;中文信息检索引擎中的分词与检索技术[J];计算机应用;2004年07期
中国重要会议论文全文数据库 前2条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 佘莉,符红光,方海光;几何命题处理中的中文分词技术[J];计算机工程;2005年18期
2 史晓东;卢亚军;;央金藏文分词系统[J];中文信息学报;2011年04期
3 姜文志;范洪达;聂心东;蒋伟俊;;作战命令的分词技术研究[J];海军航空工程学院学报;2008年01期
4 孙建军,陈肇雄,薛选民,郭喜林,侯敏;基于多功能逻辑运算分析技术的汉语分词[J];计算机研究与发展;1998年05期
5 张海营;;全二分快速自动分词算法构建[J];现代图书情报技术;2007年04期
6 尹锋;基于神经网络的汉语自动分词系统的设计与分析[J];情报学报;1998年01期
7 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
8 付国宏,王平,王晓龙;汉语分词和词性标注一体化分析的方法研究[J];计算机应用研究;2001年07期
9 王科,高常波,翟雪峰,罗万伯;汉语分词的主要技术及其应用展望[J];通信技术;2003年06期
10 王红雨;一种实用智能答疑系统在现代远程教育中的应用[J];电脑开发与应用;2005年09期
中国重要会议论文全文数据库 前10条
1 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
2 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
4 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
8 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 杨丽鹏;林世平;;基于关联规则和自然语言处理技术的概念间非分类关系的抽取[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
3 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
4 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
5 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
6 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
7 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
8 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
9 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
10 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 周波;汉语语言处理中专有名词的提取和识别[D];电子科技大学;2006年
2 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
3 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
4 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
5 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
6 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
7 侯丽敏;基于网络的智能答疑系统的研究与实现[D];河南大学;2005年
8 崔昌利;俄语简单句述谓VP的模式化及自动识别[D];黑龙江大学;2005年
9 赵城利;基于Web的信息智能感知技术及应用[D];国防科学技术大学;2004年
10 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026