收藏本站
《重庆大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于多类支持向量机的文本分类研究

杜圣东  
【摘要】: 随着信息时代的高速发展,如何对已有大量自然语言文本进行挖掘,特别是对其按照设定的语义进行正确的归类,已经成为组织大量文本信息的一个关键问题,这就是文本挖掘中很重要的一类任务-文本分类。支持向量机是由Vapnik等人提出的一种学习技术,是借助于最优化方法解决机器学习问题的新工具。它集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术。由于其具有全局最优、结构简单、推广能力强等优点,近几年得到了广泛地研究并应用于文本分类、模式识别等领域。但支持向量机最初是针对二类分类提出的,如何将其扩展到多类并应用于文本分类是本文研究的重要内容。 本文在对文本挖掘问题进行阐述的基础上,对支持向量机多类分类算法进行了深入的研究,在考察现有多分类SVM算法后,提出了一种基于二叉树基础的多类SVM改进算法,并把改进后的多类SVM用于文本挖掘中的文本分类。己经进行的主要研究工作如下: ①研究了文本挖掘的常见技术,并以文本分类为主要任务,阐述了常用的文本分类算法。接下来对支持向量机原理进行了阐述,并对其应用于分类挖掘时的问题及解决方法做了简要分析。 ②支持向量机多类分类算法的研究,分析比较了目前存在的基于支持向量机的多类别分类方法,包括“一对多”方法、“一对一”方法、一次性求解方法、决策有向无环图方法、基于二叉树的支持向量机多类分类方法等,比较了它们的优缺点及性能。 ③重点研究了基于二叉树的多类SVM分类算法,详细地讨论了目前存在的几种二叉树多类SVM算法组合策略,在训练时间、决策方案等方面作了对比,并提出了一种基于二叉树多分类SVM树结构的改进策略,在研究过程中,通过数值实验对改进后的二叉树多类SVM与几种常见的多类SVM算法的分类效果进行了比较。 ④研究了基于二叉树多类SVM改进的文本分类器设计,针对传统二分类SVM文本分类器及多类SVM文本分类器的缺陷,利用本文中改进的多类SVM分类算法作为文本分类器核心算法,并在多类文本分类实验中进行验证。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP18

【引证文献】
中国硕士学位论文全文数据库 前2条
1 熊浩勇;基于SVM的中文文本分类算法研究与实现[D];武汉理工大学;2008年
2 高亚波;文本分类系统的设计与实现[D];北京交通大学;2008年
【参考文献】
中国期刊全文数据库 前9条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
3 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
4 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
5 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
6 李波,李新军;一种基于粗糙集和支持向量机的混合分类算法[J];计算机应用;2004年03期
7 刘志刚,李德仁,秦前清,史文中;支持向量机在多类分类问题中的推广[J];计算机工程与应用;2004年07期
8 袁军鹏;朱东华;李毅;李连宏;黄进;;文本挖掘技术研究进展[J];计算机应用研究;2006年02期
9 马笑潇,黄席樾,柴毅;基于SVM的二叉树多类分类算法及其在故障诊断中的应用[J];控制与决策;2003年03期
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
3 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
4 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
5 徐正光,王淑盛,刘冀伟,王志良,史立峰;基于主成分分析的核Fisher判别方法在油水识别中的应用[J];北京科技大学学报;2005年01期
6 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
7 许云,樊孝忠,张锋;一种不需分词的中文文本分类方法[J];北京理工大学学报;2005年09期
8 暴海龙,李金林;专利检索中的IPC和主题词识别方法研究[J];北京理工大学学报(社会科学版);2003年05期
9 李业丽,陆利坤;数据挖掘在虚拟企业联盟中的应用研究[J];北京印刷学院学报;2004年01期
10 吴德会;王晓红;;基于SVM的传感器动态模型辩识方法[J];传感技术学报;2006年03期
中国重要会议论文全文数据库 前10条
1 张艳宁;郑江滨;赵荣椿;;一种有效的遥感图像识别方法[A];第九届中国体视学与图像分析学术会议论文集[C];2001年
2 石培培;刘红英;;具有单个等式和界约束二次规划的新算法[A];中国运筹学会第八届学术交流会论文集[C];2006年
3 胥永康;岳筱玲;;浅谈网络信息挖掘应用技术[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
4 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 吕哲;常玉清;王福利;;生化过程软测量建模方法的研究[A];2006中国控制与决策学术年会论文集[C];2006年
6 颜根廷;马广富;朱良宽;宋斌;;一种鲁棒支持向量机算法[A];2006中国控制与决策学术年会论文集[C];2006年
7 王小刚;童振;王福利;张清知;;一种支持向量回归模型参数多目标寻优方法[A];2007中国控制与决策学术年会论文集[C];2007年
8 孟祥国;马军;段昕;;基于统计学习理论的支持向量机算法研究[A];2006年全国理论计算机科学学术年会论文集[C];2006年
9 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
10 宋晓峰;钱志余;姜斌;;支持向量机SMO算法训练过程分析[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
中国博士学位论文全文数据库 前10条
1 赖邦传;数据驱动的综合智能决策支持系统及其生成器的研究与开发[D];中南大学;2005年
2 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
3 李庆国;水文水资源系统计算智能评价与预测方法研究[D];大连理工大学;2004年
4 沈翠华;基于支持向量机的消费信贷中个人信用评估方法研究[D];中国农业大学;2005年
5 陈燕;数据仓库的设计与实现[D];大连理工大学;2000年
6 高飞;关联规则挖掘算法研究[D];西安电子科技大学;2001年
7 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
8 陆阳;二进神经网络规则提取方法研究[D];合肥工业大学;2002年
9 叶俊勇;人脸检测与识别方法研究[D];重庆大学;2002年
10 马笑潇;智能故障诊断中的机器学习新理论及其应用研究[D];重庆大学;2002年
中国硕士学位论文全文数据库 前10条
1 李鹏;基于基因表达数据的肿瘤预测模型研究[D];北京工业大学;2004年
2 郝静;数据挖掘在电子商务客户关系管理中的应用[D];武汉大学;2005年
3 唐晓文;基于知识特征的教学资源收集和组织的研究与实现[D];中南大学;2005年
4 曾慧宏;面向网络学习的知识服务平台及检索方法研究[D];中南大学;2005年
5 杨盛;电子邮件过滤系统的研究与设计[D];中南大学;2005年
6 潘庆丰;模糊模式识别技术研究及其在故障诊断中的应用[D];福州大学;2006年
7 庄世芳;一种改进的基于概念的中文WEB文本聚类算法的研究[D];福州大学;2006年
8 车立杰;纯文本文档处理技术在法律信息数据库中的应用[D];北京邮电大学;2006年
9 韦伟;基于旱情自动监测系统的数据库研究[D];贵州大学;2006年
10 李瑞录;数据挖掘技术在人口信息系统中的应用[D];吉林大学;2005年
【同被引文献】
中国期刊全文数据库 前10条
1 张长君;;单片机控制的双门防尾随门禁系统[J];计算机工程与应用;2007年05期
2 潘红;苏明强;张同光;;互动门禁防尾随系统的开发[J];微计算机信息;2006年20期
3 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
4 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
5 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报(自然科学版);2000年03期
6 刘磊;黄斌;;因子分析法在教学评估中的应用[J];湖北工业大学学报;2006年01期
7 胡学钢;郭亚光;;一种基于粗糙集的朴素贝叶斯分类算法[J];合肥工业大学学报(自然科学版);2006年02期
8 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
9 李林花,钱越英;数据仓库多维分析模型的设计[J];计算机工程与应用;2004年11期
10 高茂庭;王正欧;;几种文本特征降维方法的比较分析[J];计算机工程与应用;2006年30期
中国博士学位论文全文数据库 前10条
1 姜同松;矩阵的表示理论及其在数值计算中的应用[D];华东师范大学;2003年
2 苏为华;多指标综合评价理论与方法问题研究[D];厦门大学;2000年
3 王洪德;基于粗集—神经网络的矿井通风系统可靠性理论与方法研究[D];辽宁工程技术大学;2004年
4 贾进章;矿井火灾时期通风系统可靠性研究[D];辽宁工程技术大学;2004年
5 易宏;舰船总体可靠性通用模型及舰船可靠性工程方法研究[D];上海交通大学;2003年
6 王从陆;非灾变时期金属矿复杂矿井通风系统稳定性及数值模拟研究[D];中南大学;2007年
7 杨宏宇;网络入侵检测技术的研究[D];天津大学;2003年
8 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
9 安金龙;支持向量机若干问题的研究[D];天津大学;2004年
10 冯健;流体输送管道泄漏智能诊断与定位方法的研究[D];东北大学;2005年
中国硕士学位论文全文数据库 前10条
1 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
2 牛肖潇;支持向量机及用于文本分类的研究[D];武汉理工大学;2006年
3 邹汉斌;支持向量机在文本分类中的应用[D];江南大学;2006年
4 石佑红;基于支持向量机的文本分类的研究[D];北京交通大学;2007年
5 应伟;基于支持向量机的文本分类方法研究[D];天津大学;2006年
6 代亮;基于支持向量机的文本分类问题研究[D];大连海事大学;2007年
7 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
8 吴强;基于数据挖掘的入侵检测系统[D];西安电子科技大学;2002年
9 曾婷婷;基于OLAP和数据挖掘的客户通话数据分析[D];广东工业大学;2005年
10 宋久壮;火灾探测报警系统的可靠性分析与Monte Carlo仿真[D];西安科技大学;2006年
【二级参考文献】
中国期刊全文数据库 前10条
1 肖健华,吴今培,杨叔子;基于启发式知识的属性约简方法及其在评价体系中的应用[J];系统工程;2002年01期
2 马颖华,王永成,苏贵洋,韩客松,赵海;自动标引中基于概念层次树的主题词轮排选择的算法实现[J];高技术通讯;2003年06期
3 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
4 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
5 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
6 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
7 胥桂仙,苏筱蔚,陈淑艳;中文文本挖掘中的无词典分词的算法及其应用[J];吉林工学院学报(自然科学版);2002年01期
8 万敏,罗振声,季姮,高小云;基于概念统计的英文自动文摘研究[J];计算机工程与应用;2002年24期
9 厉宇航,罗振声,程慕胜;基于概念层次的英文文本自动分类研究[J];计算机工程与应用;2004年11期
10 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期
中国博士学位论文全文数据库 前2条
1 马笑潇;智能故障诊断中的机器学习新理论及其应用研究[D];重庆大学;2002年
2 夏建涛;基于机器学习的高维多光谱数据分类[D];西北工业大学;2002年
【相似文献】
中国期刊全文数据库 前10条
1 戴平;李宁;;一种基于SVM的快速特征选择方法[J];山东大学学报(工学版);2010年05期
2 接标,刘冠晓,冯乔生;统计模式识别的研究[J];云南师范大学学报(自然科学版);2005年06期
3 李桂林;赵晖;;基于二次特征选择和支持向量机的面部表情识别[J];电脑知识与技术;2008年36期
4 于咏霞;杨阳;余生晨;;基于免疫算法和支持向量机的入侵检测研究[J];华北科技学院学报;2009年01期
5 李正;倪远平;刘迪;王海鹏;;实蝇图像识别中的形态特征提取研究[J];计算机仿真;2011年07期
6 李正;倪远平;刘迪;王海鹏;;实蝇图像识别中的形态特征提取研究[J];机械与电子;2010年S1期
7 蒋维;钟小强;陈开;李炎;;基于优化的支持向量机的机械设备多故障诊断模型[J];计算机应用与软件;2009年01期
8 郭璇;杨晓元;;一种综合使用支持向量机和遗传算法的隐藏图像检测方法[J];武警工程学院学报;2009年04期
9 张岐龙;单甘霖;段修生;刘谊露;;基于特征空间中类别可分性判据的特征选择[J];火力与指挥控制;2010年06期
10 蒋玉娇;王晓丹;王文军;毕凯;;一种基于PCA和ReliefF的特征选择方法[J];计算机工程与应用;2010年26期
中国重要会议论文全文数据库 前10条
1 李占潮;陈超;周喜斌;邹小勇;;基于遗传算法和支持向量机预测蛋白质结构类[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
2 王浩畅;赵铁军;刘延力;于浩;;生物医学文本中命名实体识别的智能化方法[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
3 程国建;蔡磊;潘华贤;;核向量机在大规模机器学习中的应用[A];第十一届中国青年信息与管理学者大会论文集[C];2009年
4 李占潮;周漩;戴宗;邹小勇;;基于一级结构信息预测蛋白质与蛋白质相互作用[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
5 林杰华;张斌;李冬森;宋华茂;余志强;王浩;;支持向量机在电力客户信用评级中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
6 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
7 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
8 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
9 涂冬成;薛龙;刘木华;赵进辉;沈杰;吁芳;;基于支持向量机的鹅肉肉色客观评定研究[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
10 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
中国重要报纸全文数据库 前10条
1 周晓娟;TD已过分水岭[N];通信产业报;2008年
2 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
3 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
4 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
5 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
6 海通证券 娄静吴先兴;把握风险收益特征选择最适合自己的基金[N];上海证券报;2007年
7 李水根;计算机详解配伍与药效关系[N];健康报;2005年
8 清华大学 苏光大;非接触式人脸识别技术[N];计算机世界;2006年
9 YMG记者 李仁 通讯员 曲华明 孙运智;我市九项目进入省“盘子”[N];烟台日报;2010年
10 张小东;促销之十大常见误区(一)[N];黑龙江经济报;2006年
中国博士学位论文全文数据库 前10条
1 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
2 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
3 陈祖云;煤与瓦斯突出前兆的非线性预测及支持向量机识别研究[D];中国矿业大学;2009年
4 曹葵康;支持向量机加速方法及应用研究[D];浙江大学;2010年
5 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
6 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
7 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
8 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
9 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
10 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前10条
1 王燕;语音隐写分析技术研究[D];华北电力大学(河北);2009年
2 詹超;支持向量机在基因表达数据分类中的研究[D];武汉理工大学;2006年
3 高永岗;医学图像的语义标注技术研究与应用[D];西北大学;2009年
4 杜圣东;基于多类支持向量机的文本分类研究[D];重庆大学;2007年
5 付建文;小波域语音隐藏信息检测方法研究[D];华北电力大学(河北);2008年
6 宋羚;基于多目标遗传算法和SVM的特征选择方法[D];华中科技大学;2007年
7 马宏伟;基于SVM的中文文本分类系统的建模与实现[D];大连理工大学;2006年
8 张洪军;基于SVM的电子邮件分类系统研究[D];山东师范大学;2007年
9 杨霞;基于SVM和D-S理论的垃圾邮件过滤研究[D];江苏大学;2008年
10 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026