基于自然语言处理和机器学习的文本分类及其应用研究
【摘要】:本文讨论了基于自然语言处理和机器学习的文本分类任务,提出了文本分类中新的特征降维方法,并结合两种不同的机器学习算法,观察了不同的降维方法和机器学习算法相组合完成文本分类的性能随特征空间维数变化的现象,并尝试探讨了造成这种现象的原因。具体描述了完成分类任务所需要的自然语言处理、降维和机器学习的算法及其理论基础。设计了紧凑的数据结构和算法过程来实现本文提出的降维方法。分析了文本分类对搜索在效果和效率上的帮助,阐述了文本分类在信息过滤中的应用,并结合招聘信息服务系统的设想分析了其在主动信息服务方面的应用。本文还分析了文本分类各个阶段可能的改进发展方向。
文本分类分为两个阶段完成,分别采用了自然语言处理和机器学习的技术。因此,文本分类在理论研究上的价值体现在对这两种技术的推动。然而文本分类的意义远不如此。分本分类对于提高网上信息检索的效果和效率很有帮助,是推进个性化服务,改进信息获取模式的重要方面,也是内容安全的基础。因此好的分类性能是关注的焦点。研究文本分类任务的理论和工程问题,将具有重要意义。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|