收藏本站
《江南大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

支持向量机在文本分类中的应用

邹汉斌  
【摘要】: 文本分类作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书管等领域的技术基础,有着广泛的应用前景。而支持向量机是基于统计学习理论的新一代机器学习技术,能较好地处理小样本情况下的学习问题,并且利用核函数思想把非线性问题转化为线性问题来解决,降低了算法的复杂度。目前,支持向量机已经成为国际上机器学习领域新的研究热点。 该课题从文本的特征提取、支持向量机的增量式算法、多类文本分类三个方面系统的研究了支持向量机在文本分类中的应用。在文本分类中,特征空间的维数高达数万是非常普遍的现象,为了使分类算法有效,必须选用特征选择方法降低特征空间的维数。本文对常用的文本特征选择方法进行了分析比较,阐述了基于支持向量机的特征选择方法,实验验证该方法是可行的。 在本文中深入分析了支持向量集的特性,介绍了一般的增量学习算法。通过分析,指出在增量学习中确定学习参数比较困难,本文利用v-SVM方法阐述了一种支持向量机的增量式学习策略,可以自动的调整增量训练参数,并对此方法的原始优化问题、拉格朗日函数和对偶问题进行了描述。 传统的文本分类器,需要做大量的预处理工作,来收集正负样例。由于负例的收集非常困难,为了取消在预处理时手工收集负的训练样例的需要,有效的将支持向量机应用到多类文本分类中,本文对三种常用的多类分类方法进行了介绍和分析,并阐述了一个只有正例的基于SVM的多类分类方法。该分类方法的目的是从正的无标签的数据中学习,进行多类分类,得到象所有有标签数据一样的分类精度。
【学位授予单位】:江南大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.1

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前3条
1 胡改蝶;中文文本分类中特征选择方法的应用与研究[D];太原理工大学;2011年
2 祖丽湖玛尔·马木提江;维吾尔语区分性关键词提取算法研究及其性能分析[D];新疆大学;2013年
3 李光耀;基于分类技术的个性化检索系统的研究与设计[D];武汉理工大学;2013年
【参考文献】
中国期刊全文数据库 前7条
1 李雪蕾,张冬茉;一种基于向量空间模型的文本分类方法[J];计算机工程;2003年17期
2 李红莲,王春花,袁保宗;一种改进的支持向量机NN-SVM[J];计算机学报;2003年08期
3 吴翔;谭李;陆文凯;张学工;;提高超大规模SVM训练计算速度的研究[J];模式识别与人工智能;2003年01期
4 孙剑,郑南宁,张志华;一种训练支撑向量机的改进贯序最小优化算法[J];软件学报;2002年10期
5 李建民 ,张钹 ,林福宗;序贯最小优化的改进算法[J];软件学报;2003年05期
6 肖明,沈英;自动分类研究进展[J];现代图书情报技术;2000年05期
7 王闰强,胡铁军;中文文本自动分类研究进展[J];医学情报工作;2002年06期
【共引文献】
中国期刊全文数据库 前10条
1 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
2 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
3 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
4 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
5 管翠萍;;药物靶标G蛋白偶联受体的识别预测[J];安徽农业科学;2010年24期
6 刘婷婷;;基于支持向量机的水稻纹枯病识别研究[J];安徽农业科学;2011年28期
7 钱付兰;;基于交叉覆盖算法的改进算法-最近邻交叉覆盖算法[J];安庆师范学院学报(自然科学版);2007年04期
8 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期
9 高闯;王立东;周世宇;;基于支持矢量机的宫颈细胞分类[J];辽宁科技大学学报;2009年03期
10 邹心遥;姚若河;;基于LSSVM的威布尔分布形状参数估计(英文)[J];半导体技术;2008年06期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
4 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
5 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
6 蒋少华;桂卫华;阳春华;唐朝晖;蒋朝辉;;基于主元分析与支持向量机的方法及其在密闭鼓风炉过程监控诊断中的应用[A];第二十七届中国控制会议论文集[C];2008年
7 王海丰;李壮;任洪娥;赵鹏;;基于非下采样Contourlet变换和SVM的纹理图像分割算法[A];第二十九届中国控制会议论文集[C];2010年
8 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年
9 ;Image Classification with Ant Colony Based Support Vector Machine[A];中国自动化学会控制理论专业委员会A卷[C];2011年
10 杨坤;纪志成;;基于峰值识别的改进SVM用电需求预测[A];中国自动化学会控制理论专业委员会B卷[C];2011年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
4 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
5 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
6 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
7 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
8 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
9 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
10 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
4 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
5 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
6 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年
7 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
8 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
9 刘松;基于OCSVM和主动学习的DDOS攻击分布式检测系统[D];郑州大学;2010年
10 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 李巍巍;;全文检索引擎工具包Lucene的结构与索引原理的研究[J];才智;2008年09期
2 台德艺;谢飞;胡学钢;;文本分类技术研究[J];合肥学院学报(自然科学版);2007年03期
3 都云琪,肖诗斌;基于支持向量机的中文文本自动分类研究[J];计算机工程;2002年11期
4 赵银春,付关友,朱征宇;基于Web浏览内容和行为相结合的用户兴趣挖掘[J];计算机工程;2005年12期
5 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
6 张玉芳;彭时名;吕佳;;基于文本分类TFIDF方法的改进与应用[J];计算机工程;2006年19期
7 程岚岚,何丕廉,孙越恒;基于朴素贝叶斯模型的中文关键词提取算法研究[J];计算机应用;2005年12期
8 熊忠阳;张鹏招;张玉芳;;基于χ~2统计的文本分类特征选择方法的研究[J];计算机应用;2008年02期
9 寇苏玲;蔡庆生;;中文文本分类中的特征选择研究[J];计算机仿真;2007年03期
10 胡志敏;;基于综合权重的多文档关键词抽取算法[J];计算机与数字工程;2010年06期
中国硕士学位论文全文数据库 前10条
1 吴代文;基于Lucene的二次全文检索系统设计与实现[D];西安电子科技大学;2009年
2 黄卫平;个性化搜索引擎的研究与实现[D];武汉理工大学;2011年
3 蔺继国;基于点击数据分析的个性化搜索引擎研究[D];国防科学技术大学;2010年
4 谢晋;基于词跨度的中文文本关键词提取及在文本分类中的应用[D];浙江工业大学;2011年
5 苏力华;基于向量空间模型的文本分类技术研究[D];西安电子科技大学;2006年
6 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
7 牛肖潇;支持向量机及用于文本分类的研究[D];武汉理工大学;2006年
8 王懿;基于自然语言处理和机器学习的文本分类及其应用研究[D];中国科学院研究生院(成都计算机应用研究所);2006年
9 叶志刚;SVM在文本分类中的应用[D];哈尔滨工程大学;2006年
10 霍长青;个性化元搜索引擎研究与设计[D];山东科技大学;2006年
【二级引证文献】
中国期刊全文数据库 前1条
1 王飞;何学文;;二元正态分离的特征词提取算法的研究与改进[J];黑龙江科技信息;2012年10期
中国硕士学位论文全文数据库 前1条
1 王飞;文本分类相关算法的研究与实现[D];哈尔滨工程大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
2 张琪玉;缺乏抽词词典是自动抽词标引难以普及的主要原因[J];图书与情报;1998年02期
3 张鸿宾,孙广煜;近邻法参考样本集的最优选择[J];电子学报;2000年11期
4 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
5 林鸿飞,李业丽,姚天顺;中英文双语交叉过滤的逻辑模型[J];计算机工程与应用;2000年08期
6 牛伟霞,张永奎;潜在语义索引方法在信息过滤中的应用[J];计算机工程与应用;2001年09期
7 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
8 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
9 刁倩,王永成,张惠惠,何骥;文本自动分类中的词权重与分类算法[J];中文信息学报;2000年03期
10 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
【相似文献】
中国期刊全文数据库 前10条
1 田盛丰,黄厚宽;基于支持向量机的数据库学习算法[J];计算机研究与发展;2000年01期
2 张铃;支持向量机理论与基于规划的神经网络学习算法[J];计算机学报;2001年02期
3 阎辉,张学工,李衍达;支持向量机与最小二乘法的关系研究[J];清华大学学报(自然科学版);2001年09期
4 朱国强,刘士荣,俞金寿;支持向量机及其在函数逼近中的应用[J];华东理工大学学报;2002年05期
5 侯风雷,王炳锡;基于支持向量机的说话人辨认研究[J];通信学报;2002年06期
6 马永军,方凯,刘暾东,方廷健;基于支持向量机和方差的管道内表面粗糙度等级识别[J];信息与控制;2002年05期
7 吴飞,庄越挺,潘云鹤;基于增量学习支持向量机的音频例子识别与检索[J];计算机研究与发展;2003年07期
8 孙延风,梁艳春;支持向量机的数据依赖型核函数改进算法[J];吉林大学学报(理学版);2003年03期
9 朱永生,张优云;支持向量机分类器中几个问题的研究[J];计算机工程与应用;2003年13期
10 朱家元,吴伟,张恒喜,董彦非;一种新型的多元分类支持向量机[J];计算机工程;2003年17期
中国重要会议论文全文数据库 前10条
1 林杰华;张斌;李冬森;宋华茂;余志强;王浩;;支持向量机在电力客户信用评级中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
2 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
3 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
4 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
5 涂冬成;薛龙;刘木华;赵进辉;沈杰;吁芳;;基于支持向量机的鹅肉肉色客观评定研究[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
6 杨凌;刘玉树;;基于支持向量机的坦克识别算法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
7 师旭超;巴松涛;;基于支持向量机方法的深基坑变形预测[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(上册)[C];2004年
8 张军;;支持向量机方法在地下水位干扰排除中的初步应用[A];2007年地震流体学术研讨会论文摘要集[C];2007年
9 许建生;盛立东;;基于改进的支持向量机和BP神经网络的识别算法[A];第八届全国汉字识别学术会议论文集[C];2002年
10 荣海娜;张葛祥;张翠芳;;基于支持向量机的非线性系统辨识方法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 李水根;计算机详解配伍与药效关系[N];健康报;2005年
2 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
3 清华大学 苏光大;非接触式人脸识别技术[N];计算机世界;2006年
4 YMG记者 李仁 通讯员 曲华明 孙运智;我市九项目进入省“盘子”[N];烟台日报;2010年
5 上海大学理学院教授、副院长 陆文聪;酷爱化学 孜孜以求[N];中国化工报;2006年
6 ;选择合适的数据挖掘算法[N];计算机世界;2007年
7 周颖;王米渠与中医心理学[N];中国中医药报;2006年
8 记者 耿挺;蛋白质功能算出来[N];上海科技报;2007年
9 记者 张云普通讯员 全攀峰 安强强;大庆物探深度域地震资料岩性解释技术获得五大突破[N];中国石油报;2008年
10 本报记者 冯治恩;敢与“雷公”试比高[N];铜川日报;2008年
中国博士学位论文全文数据库 前10条
1 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
2 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
3 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
4 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
5 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
6 刘叶青;原始空间中支持向量机若干问题的研究[D];西安电子科技大学;2009年
7 常甜甜;支持向量机学习算法若干问题的研究[D];西安电子科技大学;2010年
8 胡运红;支持向量机的若干算法研究[D];山东科技大学;2011年
9 朱燕飞;锌钡白回转窑煅烧过程智能建模研究[D];华南理工大学;2005年
10 田英杰;支持向量回归机及其应用研究[D];中国农业大学;2005年
中国硕士学位论文全文数据库 前10条
1 刘艳伟;支持向量机方法在感潮河段洪峰水位预报中的应用[D];浙江大学;2010年
2 杨镭;支持向量机算法设计及在高分辨雷达目标识别中的应用[D];国防科学技术大学;2010年
3 童振;基于支持向量机的电解液成分预测[D];东北大学;2008年
4 聂小芳;模糊粗糙集与支持向量机在煤与瓦斯突出预测中的应用研究[D];辽宁工程技术大学;2009年
5 鄢常亮;基于支持向量机的高炉向凉向热炉况预测研究[D];内蒙古科技大学;2010年
6 韩叙东;基于支持向量机的水电故障分类器的设计与实现[D];东北大学;2008年
7 冯杰;慢时变对象的支持向量机建模与在线校正方法研究[D];东北大学;2009年
8 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
9 王奇安;基于广泛内核的CVM算法研究及参数C的选择[D];南京航空航天大学;2009年
10 张永新;基于支持向量机和遗传算法相结合的模拟电路故障诊断方法研究[D];东北大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026