中文新词识别研究
【摘要】:
随着互联网技术的飞速发展,越来越多的新词出现在人们的日常生活中,新词虽然丰富了人们的日常表达,却给中文信息处理带来了挑战。由于新词的存在,词法分析器在分词时常常出现过多的“词碎片”,这在很大程度上影响了分词的精度。目前针对命名实体等专有新词的研究已经比较成熟,而对于普通新词的识别尚在不断探索中。
本文采用统计与规则相结合的方法识别新词。针对新词不同的构词模式特点,利用语言学的知识把新词识别问题分类细化,将单字串模式的新词和后缀串模式的新词作为本文的主要识别对象。
首先从因特网上下载大规模的新闻语料,经过删除HTML标签等预处理操作后得到纯文本语料;在对语料进行分词和词性标注的基础上,依据分词碎片的词性和停用词表等规则进行重复串的查找,得到单字串模式的候选新词和后缀串模式的候选新词。
对于单字串模式的候选新词,在使用内部词概率模型的基础上,通过分析候选新词的内部紧密结合度以及上下文环境依赖程度等特征信息,采用平均互信息和左右邻接信息熵相结合的方法进行识别;对于后缀模式的候选新词,通过大规模语料训练得到的噪声尾词典进行噪声串的过滤得到新词。
在使用内部词概率模型的基础上对左右信息熵的方法和平均互信息的方法进行比较。实验结果表明,左右信息熵的方法效果优于平均互信息的方法。前者的F-值为49.81%,高于后者的F-值46.69%。在使用内部词概率模型的基础上,将平均互信息和左右信息熵结合起来识别新词的准确率和召回率分别为70.08%和77.54%,这表明平均互信息和左右信息熵在识别新词上具有一定的互补性。
|
|
|
|
1 |
;前言[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年 |
2 |
;前言[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年 |
3 |
;前言[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年 |
4 |
;第十届全国计算语言学学术会议组织情况[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年 |
5 |
;第五届全国信息检索学术会议(CCIR 2009)[A];第五届全国信息检索学术会议论文集[C];2009年 |
6 |
;前言[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年 |
7 |
;北京中易中标电子信息技术有限公司公司简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年 |
8 |
;中文信息的智能处理[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年 |
9 |
嘎日迪;吾守尔.斯拉木;德熙嘉措;;代序[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年 |
10 |
;前言[A];第五届全国信息检索学术会议论文集[C];2009年 |
|