文本挖掘方法探讨及应用
【摘要】:随着Internet的大规模普及和企业信息化程度的提高,因此如何自动处理
这些海量联机文本成为目前重要的研究课题。文本挖掘(Text Mining)技术就可
以快速、有效的从海量的数据中提取出对用户有用的信息,而文本分类是文本
挖掘中最重要和应用最广的一项技术。
本文首先介绍了文本挖掘的一些基本概念和文本挖掘的相关知识背景,各
种理论和方法。对文本挖掘所涉及的关键技术,包括文本表示模型、特征提取、
评估方法和常用方法进行了详细的理论阐述和算法描述。并着重对特征提取和
朴素贝叶斯分类算法进行了详细的介绍。
然后本文提出并实现了一种改进互信息的特征提取和支持朴素贝叶斯的文
本分类系统,介绍了系统实现中主要过程和一些主要的技术问题。
最后,对改进互信息的特征提取和朴素贝叶斯的文本分类系统进行试验,
结果表明本算法和系统具有较高的分类准确率。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|