收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

支持向量机在文本分类中的应用

邹汉斌  
【摘要】: 文本分类作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书管等领域的技术基础,有着广泛的应用前景。而支持向量机是基于统计学习理论的新一代机器学习技术,能较好地处理小样本情况下的学习问题,并且利用核函数思想把非线性问题转化为线性问题来解决,降低了算法的复杂度。目前,支持向量机已经成为国际上机器学习领域新的研究热点。 该课题从文本的特征提取、支持向量机的增量式算法、多类文本分类三个方面系统的研究了支持向量机在文本分类中的应用。在文本分类中,特征空间的维数高达数万是非常普遍的现象,为了使分类算法有效,必须选用特征选择方法降低特征空间的维数。本文对常用的文本特征选择方法进行了分析比较,阐述了基于支持向量机的特征选择方法,实验验证该方法是可行的。 在本文中深入分析了支持向量集的特性,介绍了一般的增量学习算法。通过分析,指出在增量学习中确定学习参数比较困难,本文利用v-SVM方法阐述了一种支持向量机的增量式学习策略,可以自动的调整增量训练参数,并对此方法的原始优化问题、拉格朗日函数和对偶问题进行了描述。 传统的文本分类器,需要做大量的预处理工作,来收集正负样例。由于负例的收集非常困难,为了取消在预处理时手工收集负的训练样例的需要,有效的将支持向量机应用到多类文本分类中,本文对三种常用的多类分类方法进行了介绍和分析,并阐述了一个只有正例的基于SVM的多类分类方法。该分类方法的目的是从正的无标签的数据中学习,进行多类分类,得到象所有有标签数据一样的分类精度。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 周靖;;改进偏二叉树多类SVM的文本分类[J];广东石油化工学院学报;2011年04期
2 耿姝;秦玉平;;结合SVM与Bayesian为不带类别标记的兼类文本分类[J];科技信息(科学教研);2008年21期
3 应伟;王正欧;安金龙;;一种基于改进的支持向量机的多类文本分类方法[J];计算机工程;2006年16期
4 王晓锋;秦玉平;;一种新型基于二叉树的支持向量机多类分类方法[J];郑州轻工业学院学报(自然科学版);2008年06期
5 邹汉斌;雷红艳;张伟;陈芸;周霆;;基于正例的多类文本分类方法[J];计算机工程与设计;2006年06期
6 王永智;滕至阳;王鹏;聂江涛;;基于LSA和SVM的文本分类模型的研究[J];计算机工程与设计;2009年03期
7 王春歆;李连;张玉叶;;树形结构SVMs多类分类的研究[J];海军航空工程学院学报;2005年02期
8 卢祖友;桑永胜;;基于球向量机的中文文本分类[J];计算机工程与科学;2008年12期
9 郝海涛;;基于向量机的文本分类中词典结构研究[J];福建电脑;2009年03期
10 王彦明;奉永桃;奉国和;;1999-2008年我国SVM文本分类文献计量分析[J];图书情报工作;2009年20期
11 吴守用;;基于SVM的哈萨克语文本分类初探[J];现代计算机(专业版);2010年04期
12 王强;贾银山;;支持向量机及其在邮件过滤中的应用[J];微处理机;2010年03期
13 李昆仑,黄厚宽,田盛丰,刘振鹏,刘志强;模糊多类支持向量机及其在入侵检测中的应用[J];计算机学报;2005年02期
14 陈立孚,周宁,李丹;基于机器学习的自动文本分类模型研究[J];现代图书情报技术;2005年10期
15 文明;方凯;汪方斌;丁俊香;;一种基于SVM的多类判别算法[J];工业仪表与自动化装置;2006年06期
16 吴巧敏;林亚平;;一种基于重复训练的支持向量机方法[J];计算机工程与应用;2007年31期
17 张永;迟忠先;米滢;;一类直接构造的模糊多类支持向量分类器[J];计算机工程与应用;2008年08期
18 余辉;赵晖;;支持向量机多类分类算法新研究[J];计算机工程与应用;2008年07期
19 冀胜利;李波;;基于SVM的中文文本分类算法[J];重庆工学院学报(自然科学版);2008年07期
20 王晓锋;秦玉平;;基于二叉树的SVM多类分类算法研究[J];湖南工程学院学报(自然科学版);2008年03期
中国重要会议论文全文数据库 前10条
1 朱慕华;朱靖波;陈文亮;;面向支持向量机的降维方法比较分析[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 卢卫雄;;一种基于支持向量机的多国语言文本分类平台[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
3 曹菲菲;朱慕华;朱靖波;;基于抽样的两阶段支持向量机训练算法[A];第三届学生计算语言学研讨会论文集[C];2006年
4 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
5 刘晓勇;;基于GA与SVM融合的网页分类算法[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
6 栾江;唐常杰;黄晓冬;阴小雄;廖勇;;一种增量式支持向量机文本分类模型[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
7 闫晓飞;陈良臣;孙功星;;支持向量机多类分类算法的研究[A];第13届全国计算机、网络在现代科学技术领域的应用学术会议论文集[C];2007年
8 曹巍;赵英凯;高世伟;;基于模糊核聚类的多类支持向量机[A];2009中国过程系统工程年会暨中国mes年会论文集[C];2009年
9 程丽丽;张健沛;杨静;马骏;;一种改进的层次SVM多类分类方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 王安娜;李明;李华;栾峰;;基于支持向量机的容差电路故障诊断[A];电工理论与新技术学术年会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
2 邢永忠;最小二乘支持向量机的若干问题与应用研究[D];南京理工大学;2009年
3 赵晖;支持向量机分类方法及其在文本分类中的应用研究[D];大连理工大学;2006年
4 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
5 鲁淑霞;基于支持向量机的多光谱数据分类[D];河北大学;2007年
6 王冬丽;基于可扩展的支持向量机分类算法及在信用评级中的应用[D];东华大学;2011年
7 朱燕飞;锌钡白回转窑煅烧过程智能建模研究[D];华南理工大学;2005年
8 田英杰;支持向量回归机及其应用研究[D];中国农业大学;2005年
9 吴斌;“证候-基因组”的方法学及家系虚寒证的代谢基因表达谱研究[D];成都中医药大学;2005年
10 马儒宁;神经网络与支持向量机相关问题研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 许晓晴;基于SVM的文本分类算法研究[D];吉林大学;2008年
2 谭冠群;基于多类软间隔支持向量机的文本分类问题研究[D];哈尔滨理工大学;2008年
3 杜圣东;基于多类支持向量机的文本分类研究[D];重庆大学;2007年
4 张滨;中文文档分类技术研究[D];武汉大学;2004年
5 徐华;基于支持向量机的Web文本挖掘研究[D];哈尔滨工程大学;2004年
6 于海龙;面向PU问题的文本分类的研究与实现[D];吉林大学;2005年
7 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
8 邹丹;基于Web的中文文本分类的研究与实现[D];中国地质大学(北京);2006年
9 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
10 牛肖潇;支持向量机及用于文本分类的研究[D];武汉理工大学;2006年
中国重要报纸全文数据库 前10条
1 李水根;计算机详解配伍与药效关系[N];健康报;2005年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
3 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
4 清华大学 苏光大;非接触式人脸识别技术[N];计算机世界;2006年
5 YMG记者 李仁 通讯员 曲华明 孙运智;我市九项目进入省“盘子”[N];烟台日报;2010年
6 希安;微软试水信息检索[N];经济日报;2004年
7 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
8 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
9 上海大学理学院教授、副院长 陆文聪;酷爱化学 孜孜以求[N];中国化工报;2006年
10 ;选择合适的数据挖掘算法[N];计算机世界;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978