收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于最大熵模型的汉语词性标注研究

张磊  
【摘要】: 词性标注是为文本中的每个词语标上正确词性的过程。它作为自然语言处理的一项基础性工作,是后续句法分析、组块分析等任务的必要准备。词性标注中出现的错误会在后续处理中被放大,影响后续处理的效果,正确的词性标注对于自然语言处理有着非常重要的意义。本文的目的是在分词的基础上,研究提高汉语词性标注准确率的方法,为后期词法分析和其它自然语言处理任务服务。 最大熵模型是一种使用灵活、精确率高的统计模型。最大熵模型的一般使用方法是利用模型直接获得结果,但是通过实验发现,大约94%的词语的正确标注是最大熵模型给出的最优标注,大约3%的词语的正确标注是最大熵模型给出的次优标注。直接舍弃次优标注,就舍弃了通过最大熵模型获得的一些信息。因此可以通过一些改进手段,把这些信息也加以利用,从而提高标注精度。 本文通过结合使用最大熵模型和隐马尔可夫模型、融合多个最大熵模型的标注结果、结合使用最大熵模型和CRFs构建了三个词性标注器。使用的三种词性标注方法的核心就是同时考虑最大熵模型的最优标注和次优标注。 实验结果表明,通过同时考虑最大熵模型的最优标注和次优标注来改善中文词词性标注方法是有效的:三种词性标注方法相对于只使用最大熵模型,精确率分别提高0.45%、0.32%、1.53%。其中,最大熵模型结合CRFs的标注效果是最理想的。 词性标注是自然语言处理过程中的一个环节,本文的研究成果可以为诸如组块识别、命名实体识别等其它自然语言处理环节服务,也可以作为实现词性标注的具体方法加入实用系统中去。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘兴林;郑启伦;马千里;;中文合成词识别及分词修正[J];计算机应用研究;2011年08期
2 于江德;樊孝忠;尹继豪;;隐马尔可夫模型在自然语言处理中的应用[J];计算机工程与设计;2007年22期
3 谷川;田喜平;;基于条件随机场的汉语词性标注方法研究[J];安阳师范学院学报;2010年05期
4 屈刚,陆汝占;一个改进的汉语词性标注系统[J];上海交通大学学报;2003年06期
5 杨皓东;江凌;李国俊;;国内自然语言处理研究热点分析——基于共词分析[J];图书情报工作;2011年10期
6 钱伟,郭以昆,周雅倩,吴立德;基于最大熵模型的英文名词短语指代消解[J];计算机研究与发展;2003年09期
7 冯丽萍;焦莉娟;;基于最大熵的中文组织机构名识别模型[J];计算机与数字工程;2010年12期
8 韩普;姜杰;;HMM在自然语言处理领域中的应用研究[J];计算机技术与发展;2010年02期
9 陈敏杰;;问答系统中问题分析模块的实现[J];经营管理者;2009年13期
10 潘炜;沈超;;面向层次分类标签的词性标注系统[J];计算机工程;2009年21期
11 孙静;李军辉;周国栋;;基于条件随机场的无监督中文词性标注[J];计算机应用与软件;2011年04期
12 阴晋岭;王惠临;;词性标注的方法研究——结合条件随机场和基于转换学习的方法进行词性标注[J];现代图书情报技术;2009年03期
13 袁里驰,钟义信;一种新颖的词性标注模型[J];微电子学与计算机;2005年09期
14 夏天;杨瑛霞;田爱奎;张际平;;学习支持系统问题理解模块的架构[J];开放教育研究;2006年04期
15 孟维娟;;自然语言处理中的歧义[J];上海电机学院学报;2006年S1期
16 方春平;管建和;;FST在中文词性标注技术中的应用[J];科技信息(学术研究);2008年36期
17 佘莉,符红光,方海光;几何命题处理中的中文分词技术[J];计算机工程;2005年18期
18 赵法兴;赵伟;;平滑的最大熵模型在汉语词性自动标注中的应用[J];长春工业大学学报(自然科学版);2007年02期
19 周溢辉;穆玲玲;昝红英;袁应成;;汉语语气词用法的自动识别研究[J];计算机工程;2010年23期
20 张仰森,徐波,曹元大;自然语言处理中的语言模型及其比较研究[J];广西师范大学学报(自然科学版);2003年01期
中国重要会议论文全文数据库 前10条
1 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 王波;王厚峰;;中文单词聚类的比较研究[A];第三届学生计算语言学研讨会论文集[C];2006年
3 张玥杰;徐智婷;钱晶;张涛;;自然语言处理中专名识别方法的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 俞士汶;段慧明;朱学锋;;词语兼类暨动词向名词漂移现象的计量分析[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
6 帕里旦·吐尔逊;艾山·吾买尔;吐尔根·依布拉音;早克热·卡德尔;阿力木江·艾沙;;基于最大熵的维吾尔语词性标注模型[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
8 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
2 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
3 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
4 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
5 滕海文;基于最大熵的结构两相优化设计[D];北京工业大学;2002年
6 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
7 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
8 王红玲;基于特征向量的中英文语义角色标注研究[D];苏州大学;2009年
9 袁彩霞;中文功能组块分析及应用研究[D];北京邮电大学;2009年
10 葛诗利;面向大学英语教学的通用计算机作文评分和反馈方法研究[D];北京语言大学;2008年
中国硕士学位论文全文数据库 前10条
1 张磊;基于最大熵模型的汉语词性标注研究[D];大连理工大学;2008年
2 杨辉;汉语新词语发现及其词性标注方法研究[D];复旦大学;2008年
3 孔海霞;基于最大熵的汉语词性标注[D];大连理工大学;2007年
4 潘炜;面向层次分类标签的词性标注系统[D];复旦大学;2009年
5 万鑫;基于文本分类的命名实体识别系统[D];北京邮电大学;2009年
6 钱揖丽;中文文本分词及词性标注自动校对方法研究[D];山西大学;2003年
7 张慧;汉语句法分析及其在汉英统计翻译中的应用[D];厦门大学;2007年
8 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
9 李江;自然语言编程研究[D];北京邮电大学;2008年
10 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978