基于支持向量机的中文文本分类系统研究
【摘要】:在信息技术日新月异的今天,多数人在日常工作学习中都会接触到大量的中文信息,尤其是在互联网上,存在的中文网页更是数以万计。如何利用计算机技术快速有效的获取相关信息已经成为目前中文信息处理领域一个研究热点。中文文本分类是中文信息处理的重要组成部分,对中文信息数字化的实现和推广有重要意义,在文本识别、电子政务、搜索引擎、信息过滤等领域有着广泛和深入的应用。
支持向量机是一种建立在统计学习理论基础之上的模式识别方法,由Boser、Guyon、Vapnik等人在COLT(Computational Learning Theory)-92上首次提出,在文本分类、图像识别、生物信息处理等领域都取得了成功的应用。相比较传统的分类方法,支持向量机在求解小样本、非线性、高维空间等问题上表现出了较好的性能。支持向量机根据结构风险最小化原则,具有全局最优解,同时提高了分类器的泛化能力。利用支持向量机得到的分类器具有很好的推广能力,即使训练样本很少,分类系统也可以达到很高的准确率。
本文首先对中文文本分词进行了介绍,在常用分词算法的基础之上设计了一种双向匹配分词算法,有效的减少了歧义词对正确分词的影响。特征选择是文本分类的重要环节,本文对分类问题中的若干传统特征选择评估算法进行了分析,对其中的互信息和X~2等评估算法提出了改进策略。分类器设计是文本分类系统的核心部分,本文讨论了目前主流的分类器设计方法,重点对支持向量机方法进行了研究,详细阐述了线性可分、线性不可分、非线性等支持向量机方法的原理,比较了采用不同核函数的支持向量机分类器的分类效果。通过对一般分类器训练学习过程的分析,本文探讨了训练集选取对分类效果的影响,提出了动态训练集的文本分类算法,加强了训练集对分类器训练学习过程中所起的作用。
最后,结合文本分类过程和支持向量机方法,设计并实现了一个基于支持向量机的中文文本分类系统。该系统分类效果的评价采用分类问题研究领域普遍采用的查准率、查全率和F测度值等指标。实验结果表明,该系统的这些评判指标总体上的平均值都很高,具有较好的分类效果。
|
|
|
|
1 |
钱铁云,王元珍,冯小年;结合类频率的关联中文文本分类[J];中文信息学报;2004年06期 |
2 |
靳小波;;文本分类综述[J];自动化博览;2006年S1期 |
3 |
罗永莲,张永奎;基于混合特征的中文文本分类[J];电脑开发与应用;2005年04期 |
4 |
吴雅娟,柳培林
,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期 |
5 |
张海燕,陈治平,童调生;基于2-grams短语标引的关键词自动抽取[J];绍兴文理学院学报;2002年09期 |
6 |
李莹,张晓辉,王华勇,常桂然;一种应用向量聚合技术的KNN中文文本分类方法[J];小型微型计算机系统;2004年06期 |
7 |
唐常杰,张天庆,胡蓉,元昌安,陈安龙;文本分类的关联规则辅助遗传算法(英文)[J];四川大学学报(工程科学版);2004年03期 |
8 |
姚兴山;;基于词频的中文文本分类研究[J];现代情报;2009年02期 |
9 |
张爱华;荆继武;向继;;中文文本分类中的文本表示因素比较[J];中国科学院研究生院学报;2009年03期 |
10 |
王奕;;基于概率潜在语义分析的中文文本分类研究[J];甘肃联合大学学报(自然科学版);2011年04期 |
11 |
钱铁云;王元珍;冯小年;;利用prefix-hash-tree实现从中文文本到事务数据的转换[J];计算机科学;2005年05期 |
12 |
张翔;周明全;耿国华;侯凡;;面向中文文本分类的C4.5Bagging算法研究[J];计算机工程与应用;2009年26期 |
13 |
张海燕;陈治平;童调生;;基于2-grams短语标引的关键词自动抽取[J];绍兴文理学院学报(自然科学版);2002年03期 |
14 |
王元珍,钱铁云,冯小年;基于关联规则挖掘的中文文本自动分类[J];小型微型计算机系统;2005年08期 |
15 |
李莉;张太红;李霞;;潜在语义分析在中文文本分类中的应用[J];新疆农业大学学报;2006年02期 |
16 |
胡燕;吴虎子;钟珞;;中文文本分类中基于词性的特征提取方法研究[J];武汉理工大学学报;2007年04期 |
17 |
张翔;周明全;耿国华;;Bagging中文文本分类器的改进方法研究[J];小型微型计算机系统;2010年02期 |
18 |
马建斌;李滢;滕桂法;王芳;赵洋;;KNN和SVM算法在中文文本自动分类技术上的比较研究[J];河北农业大学学报;2008年03期 |
19 |
刘怀亮;张治国;马志辉;赵捧未;;基于KNN的中文文本分类反馈学习研究[J];图书情报工作;2008年10期 |
20 |
孙国菊,张杰;中文文本分类的特征选取评价[J];哈尔滨理工大学学报;2005年01期 |
|