收藏本站
《山西大学》 2007年 硕士论文
收藏 | 手机打开
二维码
手机客户端打开本文

基于改进的隐马尔科夫模型汉语词性标注

王敏  
【摘要】: 汉语词性标注是中文信息处理技术中的一项基础性课题。一方面,它的研究成果可以直接融入到信息抽取、信息检索、机器翻译等诸多实际应用系统当中;另一方面,汉语自动词性标注也是汉语语块识别器、汉语句法分析器、汉语语义分析器必不可少的前端处理工具。因此,研究和实现汉语词性标注器具有重要的理论意义和实用价值。 词性标注的方法主要有基于规则和基于统计的两大类。由于基于统计的方法具有不需要人工总结语言学规则、正确识别率高等优点,已逐渐成为研究的热点。在基于统计的方法中,隐马尔科夫模型是最主要的算法模型之一。 在本文中,我们以汉语的词性自动标注为研究对象,提出了一种基于改进的隐马尔科夫模型汉语词性标注方法。该方法在原有隐马尔科夫模型的基础上,加入了更多的上下文信息,用于汉语词性的自动标注问题,取得了较好的效果。主要的研究内容有以下几方面: 1.虽然隐马尔科夫模型有很好的标注效果,但是它在对当前词词语出现概率的估计只与其词性有关。在分析前人工作和研究现状的基础上,本文提出了新的词汇概率估计方法,即:词的出现概率不但与它的词性有关而且与它的后词词性有关,使得改进后的隐马尔科夫模型更能体现词语的上下文依赖关系。 2.获得上下文信息的多少和数据平滑程度是评价统计词性标注模型性能的两个重要参数。本文详细介绍了现阶段几种平滑算法,针对该模型数据稀疏现象,采用性能稳定指数线性插值方法来平滑HMM的概率参数。 3.对HMM参数估计模型的修改,只是改进模型的第一步,为了更有效的使用训练所得到的参数,需要对Viterbi算法进行修改。由于传统的Viterbi算法不适合本摸型,所以对Viterbi算法进行了拓展。 4.对于自然语言来讲不存在完备的可计算的词性信息,如何确定未登录词的词眭是除兼类问题之外词性标注所面临的另一个关键问题。本文对未登录词处理提出了具体处理方法。 我们从《人民同报》语料中选取5万词次的文本进行开放测试,其实验结果表明该方法自动词性标注的召回率达到96.20%,准确率达到95.09%,从而证明基于改进的隐马尔科夫模型的汉语自动词性标注方法是有效的。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王敏;郑家恒;;基于改进的隐马尔科夫模型的汉语词性标注[J];计算机应用;2006年S2期
2 刘伟;;汉语词性标注系统的设计与实现[J];中小企业管理与科技(上旬刊);2009年09期
3 马婷婷;;中文自动分词系统概述[J];电脑知识与技术;2010年33期
4 张孝飞,陈肇雄,黄河燕,蔡智;词性标注中生词处理算法研究[J];中文信息学报;2003年05期
5 尹木;肖铮;;词性标注与动词细分类研究[J];电脑知识与技术;2009年24期
6 董宏辉;陶建华;徐波;;基于约束模型的韵律短语预测[J];中文信息学报;2007年01期
7 陈明远,管汀鹭;打字能比说话更快——几种高速键盘的设计[J];自然杂志;1980年08期
8 唐亚伟;亚伟中文速录机的诞生与应用[J];中文信息;1994年05期
9 胡宜课;信息高速公路与中文信息处理技术[J];计算机工程;1996年S1期
10 张俊林;曲为民;杜林;孙玉芳;;跨语言信息检索研究进展[J];计算机科学;2004年07期
11 罗燕;中文信息检索系统中的自然语言理解技术研究[J];图书情报工作;2005年04期
12 谢谦;芮建武;吴健;;编码字符集标准及分类研究[J];中文信息学报;2006年05期
13 陈丹;李宁;李亮;;古文字的联机手写识别研究[J];北京机械工业学院学报;2008年04期
14 林浩;韩冰;杨乐华;;一种基于改进最大匹配快速中文分词算法[J];科技创新导报;2009年09期
15 张俊;危韧勇;;基于连续HMM语音识别系统的构建与分析[J];计算机与现代化;2009年10期
16 吴新年;数字图书馆技术之进展[J];图书与情报;2000年02期
17 鲁林丽,丁明跃,刘小平;基于HMM的红外点目标序列图像扰动补偿方法[J];红外与激光工程;2000年04期
18 刘春丽,陈树中,韩安奇;隐马尔科夫模型及其在面像识别中的应用[J];计算机应用与软件;2004年04期
19 高定国,龚育昌;现代藏字全集的属性统计研究[J];中文信息学报;2005年01期
20 凌祺,樊孝忠;领域词汇自动获取的研究[J];微机发展;2005年08期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 王宏生;孙美玲;李家峰;;隐马尔科夫模型在构建语言模型中的应用[A];创新沈阳文集(A)[C];2009年
3 ;中国中文信息学会交流材料[A];2011年网络学术交流研讨会交流材料[C];2011年
4 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
5 陈文亮;朱靖波;吕学强;姚天顺;;词性标注规则的获取和优化[A];第一届学生计算语言学研讨会论文集[C];2002年
6 ;前言[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 刘春荣;;我国当务之急是解决中文书写方式的根本变革[A];中国中文信息学会汉字编码专业委员会第九届年会暨学术研讨会论文集[C];2011年
8 ;基于耦合隐马尔科夫模型的听觉视觉双模态语音识别[A];第六届全国人机语音通讯学术会议论文集[C];2001年
9 张劲松;戴蓓倩;郁正庆;王长富;;汉语识别中隐马尔科夫模型初始化的研究[A];第二届全国人机语音通讯学术会议论文集[C];1992年
10 于哲舟;杨佳东;周春光;王纲巧;;智能仪器嵌入式声纹识别技术方法[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
2 吴义坚;基于隐马尔科夫模型的语音合成技术研究[D];中国科学技术大学;2006年
3 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
4 吴振华;离线中文签名验证技术研究[D];华中科技大学;2006年
5 张小强;几类高效入侵检测技术研究[D];西南交通大学;2006年
6 杜修平;基于数据挖掘的证券态势估计系统[D];天津大学;2006年
7 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
8 王璐;未知环境中移动机器人视觉环境建模与定位研究[D];中南大学;2007年
9 赵立权;粒度计算的模型研究[D];安徽大学;2007年
10 周卫华;面向中文信息处理的现代汉语动宾语义搭配研究[D];华中师范大学;2007年
中国硕士学位论文全文数据库 前10条
1 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
2 叶海燕;粒子群优化算法及其在股票市场预测优化问题中的应用[D];广州大学;2008年
3 杜守栓;方言口音普通话语音自动切分算法研究[D];中国科学院研究生院(计算技术研究所);2006年
4 张爽;基于HMM的转录因子结合位点识别方法研究[D];东北师范大学;2009年
5 李翠芸;联机手绘图形识别的自适应HMM方法[D];西安电子科技大学;2003年
6 刘斌斌;基于HMM模型的Web信息抽取方法的研究与改进[D];重庆大学;2008年
7 陶东成;基于Linux和XIM协议的中文输入法服务器的实现及其应用[D];苏州大学;2004年
8 罗忠毅;数字化中医古籍的理想模式及其相关问题研究[D];成都中医药大学;2005年
9 洪文;基于隐Markov模型的步态识别研究[D];哈尔滨工程大学;2005年
10 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
中国重要报纸全文数据库 前10条
1 记者 梁捷;我国中文信息处理技术从实验室走向全面应用[N];光明日报;2009年
2 姚双云 华中师范大学语言与语言教育研究中心;虚词知识库:中文信息处理的基石[N];中国社会科学报;2011年
3 倪光南;活力重现的中文信息处理[N];计算机世界;2001年
4 齐悦;速记界泰斗唐亚伟 获中文信息处理领域最高科技奖[N];中国质量报;2006年
5 张波 龙雨;中文信息处理国际学术会议在武汉大学召开[N];中国社会科学院院报;2007年
6 记者 段佳;中文信息处理技术加速前行[N];大众科技报;2009年
7 记者 韩晓玲通讯员 张波 龙雨;海内外专家聚焦中文信息处理[N];湖北日报;2007年
8 本报记者 毛国兵 通讯员 岚宇;亚伟速录:实现中文信息处理产业化的自主品牌[N];中国贸易报;2008年
9 本报记者 关逸民;中文速录成为自主核心技术产业[N];中国信息报;2006年
10 胡唯元;文字编码新标准:不再为“名”所累[N];科技日报;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978