基于稀疏贝叶斯模型的文本分类方案研究
【摘要】:文本分类是按照一定的分类标准进行自动的标记分类的。这种智能化的分类使得我们无需通过文本的表达等信息,就能从中得知后面的文本是否是自己所需要的。文本分类一般包括文本的表达、分类器的选择、分类结果的评价和反馈等过程。随着网络技术的发展,自动文本成为行业先驱以及各种智能化、个性化的搜索引擎,并且在许多领域独领风骚。文章不仅对部分特征提取的工作做了细化,还对各种算法和一些基本概念以及分类器的选择作出了说明,并对文本分类的问题进行了剖析并说明其优缺点,以及如何更好的应用它们。其次,针对各种算法存在的弊端提出了稀疏贝叶斯概率模型,使其能够更好的适应文本分类的需要,并完善相关的技术。再次,通过判断收缩因子的类密度以及相关的性质,给出了必要的证明和解释。稀疏贝叶斯概率模型大大提升了文本分类的准确度,使人力成本大幅降低。我们还利用了统计学习的办法,对分类器进行了有效的分类,最后对各类分类器的优缺点进行了评价,指明了模型的用途和相应的局限性。现今,统计方法已成为文本分类领域的主要方法以及明确的标准,这样应用起来更加的得心应手。我们采用的稀疏贝叶斯模型不仅降低了文本分类的计算量,还提高了文本分类的速度。我们的实验结果表明,稀疏贝叶斯模型在大数据方面优于传统的模型的算法,不仅有效的提高了查重率和分类速度,还更好的实现面向对象的准确率。