基于语义的汉语文本主题词提取算法研究与实现
【摘要】:为了适应信息时代的迅速发展,从汉语文献中自动提取主题词,已成为自然语言处理研究领域的一个热点。由于传统的自然语言处理技术仅仅采用机械的关键词匹配来实现,缺乏知识处理和理解能力,造成了文本处理的不确定性。为此本文以中文文本为处理对象,研究并实现了基于语义理解的中文文本主题词自动提取算法,以实现规范的主题词提取和智能检索。
本文结合领域背景,构建概念语义网络作为分词词典和知识库,研究并设计了基于词典的分词算法和无词典的基于词频统计的分词算法;采用向量空间模型将非结构化的文本表示为向量形式,提出了中文文献主题词确定的数学模型;利用智能计算等技术实现中文文献集的主题词自动提取,设计一套适合该种数据集主题提取的遗传算法。
【相似文献】 | ||
|
|||||
|
|
|||
|
|
|||||||||||||||||||||
|