收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于最大熵的汉语词性标注

孔海霞  
【摘要】: 词性标注是给文本中的每个词标注上正确的词性。它是自然语言处理的基础,其正确率将影响后期句法分析或组块分析的正确率。在词性标注时出现的错误会在后续自然语言处理链中被放大,正确标注词性对自然语言处理有非常重要的意义。本文的目的就是在文本分词的基础上,实现汉语词性标注,为后期词法分析和其它自然语言处理任务提供基础。 本文首先阐述了汉语词性标注的研究现状及研究意义,然后在深入理解最大熵理论的基础上实现了基于最大熵的汉语词性标注系统,最后利用统计规则和词性限定方法对未登录词进行了进一步标注。 利用不同模板将不同的上下文信息导入最大熵模型,构建了四个最大熵标注模型,选出具有最优标注效果的模板作为最终模板。为了简化模型,采用了三种不同的特征选取方法精简最大熵模型的候选特征,为了进一步提高词性标注正确率,采用了规则和词性限定法,结合最大熵对未登录词做了进一步标注。论文给出了最大熵标注模型的算法,并给出了标注结果,及对未登录词进一步标注后的结果。 词性标注比较复杂,由于最大熵可以充分利用词的不同层次的上下文信息,能较好地解决复杂问题,因此用最大熵进行词性标注,取得了较好的效果。 实验结果表明,用最大熵进行中文词词性标注是有效的:开试测试正确率为94.96%,未登录词的标注正确率为63.32%。 本文的研究成果可应用于实际翻译系统中,为自然语言后期处理提供了基础。另外还可进一步应用到信息检索、文本分类等自然语言处理领域中。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 侯呈风;古丽拉·阿东别克;;改进的HMM应用于哈萨克语词性标注[J];计算机工程与应用;2010年36期
2 朱靖波,张玫杰,姚天顺;一种基于NA假设的训练数据自动构造方法[J];东北大学学报(自然科学版);1999年04期
3 韩东妹;林民;;自动词性标注概述[J];内蒙古科技与经济;2006年01期
4 潘炜;沈超;;面向层次分类标签的词性标注系统[J];计算机工程;2009年21期
5 刘遥峰;王志良;王传经;;中文分词和词性标注模型[J];计算机工程;2010年04期
6 孙静;李军辉;周国栋;;基于条件随机场的无监督中文词性标注[J];计算机应用与软件;2011年04期
7 吴杨;;词性标注对外文信息检索系统性能的影响[J];民营科技;2011年05期
8 姚天昉,林莉,玉素甫·艾白都拉;基于德语语料库词性标注和统计方法的研究[J];上海交通大学学报;1996年06期
9 牛洪梅;加米拉·吾守尔;吐尔根·依布拉音;;现代维吾尔语的词性标注校对技术研究[J];伊犁师范学院学报(自然科学版);2007年01期
10 谷川;田喜平;;基于条件随机场的汉语词性标注方法研究[J];安阳师范学院学报;2010年05期
11 付国宏,王晓龙,姜守旭;一种启发式的汉语词性标注算法[J];计算机工程与设计;2000年05期
12 袁里驰,钟义信;一种新颖的词性标注模型[J];微电子学与计算机;2005年09期
13 赵法兴;赵伟;;平滑的最大熵模型在汉语词性自动标注中的应用[J];长春工业大学学报(自然科学版);2007年02期
14 佟晓筠;宋国龙;刘强;张俐;姜伟;;中文分词及词性标注一体化模型研究[J];计算机科学;2007年09期
15 王永景;刘功申;李生红;荆涛;;用于文本校对的分词与词性标注一体化算法[J];计算机技术与发展;2008年08期
16 方春平;管建和;;FST在中文词性标注技术中的应用[J];科技信息(学术研究);2008年36期
17 阴晋岭;王惠临;;词性标注的方法研究——结合条件随机场和基于转换学习的方法进行词性标注[J];现代图书情报技术;2009年03期
18 尹木;肖铮;;词性标注与动词细分类研究[J];电脑知识与技术;2009年24期
19 刘洁彬;宋茂强;赵方;杨志宇;;基于上下文的二阶隐马尔可夫模型[J];计算机工程;2010年10期
20 卢微;;隐马尔可夫模型在自然语言理解研究中的应用[J];电脑与信息技术;2007年01期
中国重要会议论文全文数据库 前10条
1 赵大明;;关于《现代汉语规范字典》的词性标注[A];中国辞书论集1999[C];1999年
2 邢富坤;宋柔;;自动词性标注中语法因素和词汇因素对英汉语的不同影响[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 帕里旦·吐尔逊;艾山·吾买尔;吐尔根·依布拉音;早克热·卡德尔;阿力木江·艾沙;;基于最大熵的维吾尔语词性标注模型[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 艳红;王斯日古楞;;蒙古文词语切分在自动词性标注中的应用[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 林红;胡欣;;最大熵模型的应用[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“地球气候和环境系统的探测与研究”分会论文集[C];2003年
7 陈文亮;朱靖波;吕学强;姚天顺;;词性标注规则的获取和优化[A];第一届学生计算语言学研讨会论文集[C];2002年
8 李红印;;颜色词的收词、释义和词性标注[A];中国辞书论集2001[C];2001年
9 钱揖丽;张虎;;汉语分词及词性标注自动校验方法研究[A];第一届学生计算语言学研讨会论文集[C];2002年
10 郭锐;;语文词典的词性标注问题[A];中国辞书学文集[C];1998年
中国博士学位论文全文数据库 前10条
1 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
2 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
3 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
4 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
5 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
6 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
7 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
8 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
9 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
10 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 钱揖丽;中文文本分词及词性标注自动校对方法研究[D];山西大学;2003年
2 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
3 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
4 张虎;汉语语料库词性标注一致性检查及自动校对方法研究[D];山西大学;2005年
5 张磊;基于最大熵模型的汉语词性标注研究[D];大连理工大学;2008年
6 马晓娜;现代汉语词典词性标注对释义的影响[D];河北师范大学;2013年
7 熊冬明;汉语自动分词和中文人名识别技术研究[D];浙江大学;2006年
8 樊立三;现代汉语语文辞书词性标注研究[D];鲁东大学;2006年
9 孔海霞;基于最大熵的汉语词性标注[D];大连理工大学;2007年
10 孙静;基于平行语料库的无监督中文词性标注研究[D];苏州大学;2010年
中国重要报纸全文数据库 前6条
1 孟传良;略谈汉外词典的修订[N];中国图书商报;2005年
2 王小宁;辞书应慎用“规范”冠名[N];人民政协报;2004年
3 北京大学中文系 陆俭明;要对广大读者负责[N];中国社会科学院院报;2004年
4 语言所 董琨;错误百出 贻笑大方[N];中国社会科学院院报;2004年
5 教育部语言文字信息管理司司长李宇明;语言文字工作应当与时俱进[N];中国教育报;2001年
6 记者 黄小希;部分电子词典内容“缩水”“注水”严重[N];新华每日电讯;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978