收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于支持向量机的文本分类算法研究

秦玉平  
【摘要】: 支持向量机作为一种基于统计学习理论的新型机器学习方法,较好地解决了非线性、高维数、局部极小点等实际问题,是机器学习领域新的研究热点。文本分类是基于内容的自动信息管理的核心技术。文本向量稀疏性大、维数高、特征之间具有较大的相关性,支持向量机对于特征相关性和稀疏性不敏感,处理高维数问题具有较大的优势,因此,支持向量机在文本分类中具有很大的应用潜力。但是,由于文本分类具有类别和样本数目多等特点,因此,支持向量机用于文本分类时仍有许多尚未完全解决的问题。例如,增量学习、兼类分类、训练和分类速度较慢等。本文主要针对支持向量机在文本分类等实际应用中存在的一些问题进行深入研究,主要工作如下: 1.对支持向量机兼类分类算法进行了研究。针对规模较小、类别数较多的兼类样本集,提出了一种基于l-a-r方法的兼类分类算法。该算法用l-a-r方法训练模糊子分类器,对待分类样本,通过子分类器得到其对应的隶属度向量,依据隶属度向量判定其所属类别。针对规模较大、类别数较少的兼类样本集,提出了一种基于l-a-l方法的兼类分类算法。该算法用l-a-l方法训练模糊子分类器,对于待分类样本,通过子分类器得到其对应隶属度矩阵,依据隶属度矩阵每行元素和判定该样本所属类别。针对规模较大、类别数较多的兼类样本集,提出了一种超球支持向量机兼类分类算法。该算法对每一类样本分别训练球超,通过计算待分类样本到各超球球心的距离确定其类别。实验表明,三种算法都能有效地实现兼类分类,扩展了支持向量机的分类能力。 2.对支持向量机增量学习算法进行了研究。提出了一种加权类增量学习算法,该算法是对CIL算法的改进,通过加入类权值,解决了因两类训练样本不平衡而造成的小类别分类精度较低的问题。实验证明,与CIL算法相比,该算法在不降低分类速度的前提下,提高了小类别的分类精度。同时,提出了一种新的类增量学习算法,该算法利用超球支持向量机进行分类。增量学习过程中,先对新增类别训练超球,然后对新增样本兼有的历史类别重新训练超球。在很小的样本集,很小的空间代价下实现类增量学习,同时保留了历史训练结果。该算法对单号样本和多标号样本都适用,便于改进和扩充。实验证明,该算法具有较高的训练速度、分类速度和分类精度,增强了支持向量机的学习能力。 3.对支持向量机快速分类算法进行了研究。在分析了现有支持向量集缩减方法的基础上,提出了一种支持向量机快速分类算法,该算法是对FCSVM算法的改进。该算法利用二分法选取支持向量子集,然后采用变换的方式,用选取的支持向量子集代替全部支持向量进行分类计算。实验结果表明,该算法在不损失分类精度的前提下,进一步缩减了决策函数中的支持向量,提高了支持向量机的分类速度。 4.对模糊支持向量机训练算法进行了研究。针对大规模训练集,提出了一种利用最大违反对选择工作集训练模糊支持向量机的算法。在此基础上,又提出了一种利用目标函数的二阶近似信息选取工作集训练模糊支持向量机的算法。实验表明,两种算法都能实现模糊支持向量机的快速训练。两种算法相比,第二种算法的训练速度更快,训练样本集规模越大,效果越明显。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王彦明;奉永桃;奉国和;;1999-2008年我国SVM文本分类文献计量分析[J];图书情报工作;2009年20期
2 张玉峰;何超;;基于潜在语义分析和HS-SVM的文本分类模型研究[J];情报理论与实践;2010年07期
3 吴飞,庄越挺,潘云鹤;基于增量学习支持向量机的音频例子识别与检索[J];计算机研究与发展;2003年07期
4 李祥纳;艾青;秦玉平;刘卫江;;支持向量机增量学习算法综述[J];渤海大学学报(自然科学版);2007年02期
5 王强;贾银山;;支持向量机及其在邮件过滤中的应用[J];微处理机;2010年03期
6 李忠伟,张健沛,杨静;基于支持向量机的增量学习算法研究[J];哈尔滨工程大学学报;2005年05期
7 卢祖友;桑永胜;;基于球向量机的中文文本分类[J];计算机工程与科学;2008年12期
8 郝海涛;;基于向量机的文本分类中词典结构研究[J];福建电脑;2009年03期
9 吴守用;;基于SVM的哈萨克语文本分类初探[J];现代计算机(专业版);2010年04期
10 李凯,黄厚宽;支持向量机增量学习算法研究[J];北方交通大学学报;2003年05期
11 杨森,徐海涛,柴乔林;应用支持向量机实现增量入侵检测[J];计算机工程与应用;2004年27期
12 赵延平;谢丽聪;;面向电信领域的文本分类研究[J];计算机与现代化;2011年02期
13 吴巧敏;林亚平;;一种基于重复训练的支持向量机方法[J];计算机工程与应用;2007年31期
14 冀胜利;李波;;基于SVM的中文文本分类算法[J];重庆工学院学报(自然科学版);2008年07期
15 闫超;;基于改进的SVM线性可分文本分类算法[J];电脑开发与应用;2010年08期
16 程学云;吉根林;彭志娟;;基于SVM的信息融合新方法[J];计算机应用研究;2007年12期
17 陈立孚,周宁,李丹;基于机器学习的自动文本分类模型研究[J];现代图书情报技术;2005年10期
18 张伟;邹汉斌;雷红艳;刘琼;;一种基于正例的SVM分类方法[J];江南大学学报(自然科学版);2007年01期
19 熊忠阳;杜圣东;张玉芳;;一种改进的支持向量机邮件分类器[J];计算机科学;2007年09期
20 刘怀亮;张治国;赵捧未;;中文文本分类反馈学习研究[J];情报理论与实践;2009年06期
中国重要会议论文全文数据库 前10条
1 朱慕华;朱靖波;陈文亮;;面向支持向量机的降维方法比较分析[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 卢卫雄;;一种基于支持向量机的多国语言文本分类平台[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
3 曹菲菲;朱慕华;朱靖波;;基于抽样的两阶段支持向量机训练算法[A];第三届学生计算语言学研讨会论文集[C];2006年
4 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
5 张健沛;李忠伟;杨静;;一种基于多支持向量机的并行增量学习方法(英文)[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
6 刘晓勇;;基于GA与SVM融合的网页分类算法[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
7 栾江;唐常杰;黄晓冬;阴小雄;廖勇;;一种增量式支持向量机文本分类模型[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 赵莹;万福永;;支持向量机的增量学习算法及其在多类分类问题中的应用[A];第25届中国控制会议论文集(下册)[C];2006年
9 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国博士学位论文全文数据库 前10条
1 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
2 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
3 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
4 王洪波;单分类支持向量机的学习方法研究[D];浙江大学;2012年
5 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
6 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
7 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
8 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
9 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
10 朱燕飞;锌钡白回转窑煅烧过程智能建模研究[D];华南理工大学;2005年
中国硕士学位论文全文数据库 前10条
1 高洁;增量式中文文本分类算法研究与实现[D];南京师范大学;2004年
2 周振龙;支持向量机理论在文本分类中的应用研究[D];兰州理工大学;2007年
3 张滨;中文文档分类技术研究[D];武汉大学;2004年
4 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
5 牛肖潇;支持向量机及用于文本分类的研究[D];武汉理工大学;2006年
6 李强;基于支持向量机的文本分类方法研究[D];西安科技大学;2009年
7 徐华;基于支持向量机的Web文本挖掘研究[D];哈尔滨工程大学;2004年
8 于海龙;面向PU问题的文本分类的研究与实现[D];吉林大学;2005年
9 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
10 杨丽华;基于内容的垃圾邮件过滤技术研究[D];西南交通大学;2006年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
3 李水根;计算机详解配伍与药效关系[N];健康报;2005年
4 清华大学 苏光大;非接触式人脸识别技术[N];计算机世界;2006年
5 YMG记者 李仁 通讯员 曲华明 孙运智;我市九项目进入省“盘子”[N];烟台日报;2010年
6 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
7 上海大学理学院教授、副院长 陆文聪;酷爱化学 孜孜以求[N];中国化工报;2006年
8 ;选择合适的数据挖掘算法[N];计算机世界;2007年
9 记者 耿挺;蛋白质功能算出来[N];上海科技报;2007年
10 周颖;王米渠与中医心理学[N];中国中医药报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978