藏文自动分词技术方法研究
【摘要】:
藏文分词是藏文信息处理中一项不可缺少的基础性工作。从文本的输入系统〔如智能语句输入法、语音输入、手写输入),到文字处理(如文本校对)以及语音合成、文本检索、文本分类、自然语言接口、自动文摘等,无处不渗透着分词系统的应用,它是藏文信息处理重要基础之一。
众所周知,英文以词为单位,以空格隔开。计算机可以容易地理解英文单词。而藏文句子中,词与词之间没有明显的分隔符(如空格)。藏文以字(音节字)为单位,连字成句才能描述一个完整的意思。而对由词组成的藏文句子,必须通过藏文分词技术才得以理解。把藏文的音节字序列切分成有意义的词,是藏文分词的研究工作。
通过研究和分析藏文分词的概念以及国内外相关成果,本文系统地提出了分词系统中藏文分词切分单位的划定原则以及藏文分词技术方法,结合藏文自然标记断句、以格助词来为分块、块内匹配与统计相结合的分词方法,提出了藏文自动分词方法、格助词的识别方法、交集型和组合型歧义的识别方法及未登录词识别方法。进而提出了藏文自动分词的基础理论知识及分词技术方法。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||
|
|
|||||||||||||||||||||
|
|
|||||||||||
|