中文未登录词识别的研究及在汉字输入法中的应用
【摘要】:未登录词识别是中文信息处理领域中的一个难点。本文针对汉字输入法词库的特点,提出了一种适用于输入法词库的未登录词识别方案,该方案通过碎片分词和词结合提取两步进行未登录词识别;并利用该方案实现了一个用于更新输入法词库的完整系统ZHHZ-OOVRS。
本文首先分析和比较了现有的未登录词识别方案,并介绍了输入法词库的特点,从而明确课题目标;在此基础上,提出了系统的整体设计方案,分别介绍了动态语料库构筑、语料未登录词识别、未登录词录入输入法词库三个模块;然后,具体描述了系统的设计与实现,重点介绍了语料未登录词识别模块的详细设计、实现流程和实验数据分析;最后,介绍系统的整合与操作。
文章提出了一种适用于输入法词库的未登录词识别方案,对未登录词的研究具有一定的参考价值;实现的更新输入法词库的系统,能满足输入法词库的需求,具有一定的实用价值。
【关键词】:未登录词识别 汉字输入法 碎片分词 词结合提取 【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.43
【DOI】:CNKI:CDMD:2.2005.134927
【目录】:
- 摘要3-4
- ABSTRACT4-8
- 第一章 引言8-11
- 1.1 课题提出8-9
- 1.2 课题内容9-10
- 1.2.1 课题内容9
- 1.2.2 本人工作9-10
- 1.3 课题意义10
- 1.4 本文组织10-11
- 第二章 相关知识介绍11-19
- 2.1 未登录词介绍11-17
- 2.1.1 未登录词概念11-12
- 2.1.2 未登录词识别基本方法12-16
- 2.1.3 未登录词识别具体方案介绍16-17
- 2.1.4 未登录词识别性能评判标准17
- 2.2 汉字输入法介绍17-19
- 第三章 系统总体设计19-23
- 3.1 系统构架设计19-22
- 3.2 系统开发所用资源与运行环境22-23
- 第四章 系统实现23-60
- 4.1 动态语料库构筑23-28
- 4.1.1 动态语料库构筑具体设计23-25
- 4.1.2 动态语料库构筑具体实现25-28
- 4.2 语料未登录词识别28-54
- 4.2.1 语料未登录词识别具体设计28-32
- 4.2.2 碎片分词提取未登录词32-46
- 4.2.3 词结合提取未登录词46-53
- 4.2.4 语料未登录词识别小结53-54
- 4.3 未登录词录入汉字输入法54-57
- 4.4 系统整合57-60
- 第五章 总结与展望60-62
- 5.1 总结60
- 5.2 展望60-62
- 参考文献62-65
- 攻读学位期间公开发表的论文65-66
- 致谢66-67
- 硕士专业学位论文详细摘要67-69
全文下载:
CAJ格式
不支持迅雷等加速下载工具,请取消加速工具后下载