收藏本站
《山东科技大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于SVM的多类文本分类研究

李金华  
【摘要】:上世纪九十年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。为了在这些海量的、异质的、非结构化的数据中提取感兴趣的、潜在有用的模式和隐藏的信息,需要对文本信息进行数据挖掘。随着文本数据的迅速增长,文本挖掘已经成为了数据挖掘领域的一个重要的研究方向。 文本分类是将自然文本根据内容自动分为预先定义的一个或者几个类别的过程,它是基于内容的自动信息管理的核心技术。文本向量稀疏性大、维数高、特征之间具有较大的相关性,支持向量机对于特征相关性和稀疏性不敏感,处理高维数问题具有较大的优势。因此,支持向量机在文本分类中具有很大的应用潜力。但是,支持向量机用于文本分类时仍有许多尚未完全解决的问题。例如,增量学习、多类分类、训练和分类速度较慢等。传统支持向量机是针对两类分类问题的,如何将两类分类方法扩展到多类别分类是支持向量机研究的重要内容之一 在各种基于支持向量机的多类分类算法中,基于二叉树的多类支持向量机分类算法的训练和分类速度相对较快,且解决了不可分区域问题,是一种很好的方法。本文针对二叉树支持向量机多分类方法存在的弊端,综合考虑了类距离与类的分布对类间可分离性的影响,采用聚类分析方法建立树的结构,以提高多分类器的决策速度与准确率。最后在复旦大学李荣陆博士的中文语料库上进行了文本分类实验,并对实验数据进行了分析和总结,实验结果验证了所提方法的有效性。
【学位授予单位】:山东科技大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前9条
1 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
2 王晓锋;秦玉平;;基于二叉树的SVM多类分类算法研究[J];湖南工程学院学报(自然科学版);2008年03期
3 刘志刚,李德仁,秦前清,史文中;支持向量机在多类分类问题中的推广[J];计算机工程与应用;2004年07期
4 唐发明,王仲东,陈绵云;一种新的二叉树多类支持向量机算法[J];计算机工程与应用;2005年07期
5 都云琪,肖诗斌;基于支持向量机的中文文本自动分类研究[J];计算机工程;2002年11期
6 马笑潇,黄席樾,柴毅;基于SVM的二叉树多类分类算法及其在故障诊断中的应用[J];控制与决策;2003年03期
7 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
8 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
9 王兴玲,李占斌;基于网格搜索的支持向量机核函数参数的确定[J];中国海洋大学学报(自然科学版);2005年05期
中国博士学位论文全文数据库 前1条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 黄琼英;支持向量机多类分类算法的研究及应用[D];河北工业大学;2005年
2 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
3 汪传建;基于混合模型的文本分类的研究[D];东北大学;2005年
4 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
5 杨雪;支持向量机多类分类方法的研究[D];哈尔滨工程大学;2006年
6 曹兆龙;基于支持向量机的多分类算法研究[D];华东师范大学;2007年
7 杜圣东;基于多类支持向量机的文本分类研究[D];重庆大学;2007年
8 孙刚;基于支持向量机的多分类方法研究[D];大连海事大学;2008年
9 邸锦;基于支持向量机的文本分类问题的研究[D];北京交通大学;2008年
10 马波;支持向量机多类分类算法的分析与设计[D];扬州大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
2 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
3 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
4 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
5 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
6 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
7 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
8 章曙光;耿焕同;;一种改进的基于聚类的范例添加删除维护模型[J];安徽建筑工业学院学报(自然科学版);2006年01期
9 李永森;潘若愚;李传军;;公共设施选址优化研究[J];安徽建筑工业学院学报(自然科学版);2009年06期
10 李红梅;贺小扬;王雪冬;;粗糙集理论在农业知识发现中的应用研究[J];安徽农业科学;2008年06期
中国重要会议论文全文数据库 前10条
1 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
3 宋海鹰;桂卫华;阳春华;;基于核偏最小二乘的简约最小二乘支持向量机及其应用研究[A];第二十六届中国控制会议论文集[C];2007年
4 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
5 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
6 顾小军;杨世锡;钱苏翔;;基于支持向量机的旋转机械多类故障识别研究[A];第二十六届中国控制会议论文集[C];2007年
7 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
8 姜明辉;袁绪川;;基于GA优化的个人信用评估SVM模型[A];第二十六届中国控制会议论文集[C];2007年
9 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
10 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
3 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
4 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
5 朱广平;混响干扰中的信号检测技术研究[D];哈尔滨工程大学;2009年
6 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
7 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
8 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
9 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
10 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
中国硕士学位论文全文数据库 前10条
1 展慧;基于多源信息融合技术的板栗分级检测方法研究[D];华中农业大学;2010年
2 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
3 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
4 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
5 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
6 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
7 韩晓峰;高斯混合模型及在探测网络社区结构中的应用[D];山东科技大学;2010年
8 安文娟;Fisher和支持向量综合分类器[D];辽宁师范大学;2010年
9 姜成玉;基于支持向量机的时间序列预测[D];辽宁师范大学;2010年
10 王文栋;GEP及SVM融合的分类技术研究[D];广西师范学院;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 王建芬,曹元大;支持向量机在大类别数分类中的应用[J];北京理工大学学报;2001年02期
3 柳回春,马树元,吴平东,杨峰,曾兴生,毕路拯;UK心理测试自动分析系统的手写体数字识别[J];北京理工大学学报;2002年05期
4 刘华富;支持向量机Mercer核的若干性质[J];北京联合大学学报(自然科学版);2005年01期
5 王国胜,钟义信;支持向量机的若干新进展[J];电子学报;2001年10期
6 高学,金连文,尹俊勋,黄建成;一种基于支持向量机的手写汉字识别方法[J];电子学报;2002年05期
7 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
8 吴天雷,马少平;基于重叠动态网格和模糊隶属度的手写汉字特征抽取[J];电子学报;2004年02期
9 阎满富,田英杰;改进的支持向量回归机[J];系统工程;2004年10期
10 李静梅,孙丽华,张巧荣,张春生;一种文本处理中的朴素贝叶斯分类器[J];哈尔滨工程大学学报;2003年01期
中国博士学位论文全文数据库 前7条
1 马笑潇;智能故障诊断中的机器学习新理论及其应用研究[D];重庆大学;2002年
2 夏建涛;基于机器学习的高维多光谱数据分类[D];西北工业大学;2002年
3 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
4 刘志刚;支撑向量机在光谱遥感影像分类中的若干问题研究[D];武汉大学;2004年
5 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
6 李华庆;支持向量机及其在人脸识别中的应用研究[D];上海交通大学;2006年
7 王磊;支持向量机学习算法的若干问题研究[D];电子科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 杨昂;文本分类算法研究[D];湖南大学;2002年
2 雷静;支持向量机在基于边缘检测的图像分割和函数估计中的应用[D];河北工业大学;2003年
3 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
4 罗强;基于粗糙集理论的知识发现在web文本挖掘上的应用研究[D];广西大学;2003年
5 魏兴国;基于核方法的手写体数字识别研究[D];南京理工大学;2003年
6 湛燕;K-近邻、K-均值及其在文本分类中的应用[D];河北大学;2003年
7 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
8 张滨;中文文档分类技术研究[D];武汉大学;2004年
9 张治平;Web信息精确获取技术研究[D];国防科学技术大学;2004年
10 徐凤亚;多层次中文文本分类技术的研究[D];清华大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 崔爱国;;文本分类中特征提取方法的比较与研究[J];电脑知识与技术;2009年20期
2 张春红;谢卫;;基于SVM-KNN算法的特色数据库分类体系初探[J];情报科学;2009年11期
3 刘秀松;;带有云化核函数的SVM文本分类方法[J];科技情报开发与经济;2007年30期
4 霍东云;聂峰光;郭力;;利用Medline文摘数据库研究文本分类[J];计算机与应用化学;2007年09期
5 张美虎;张建明;;基于粗糙集和遗传算法的文本分类研究[J];微计算机信息;2009年33期
6 毛伟;;基于支持向量机的回归应用研究[J];科技资讯;2011年12期
7 周珂;彭宏;胡劲松;;支持向量机在心电图分类诊断中的应用[J];微计算机信息;2006年09期
8 韩永章;;基于支持向量机的旋转机械故障诊断研究[J];科技信息;2010年12期
9 刘磊;;多类分类支持向量机方法研究[J];福建电脑;2010年08期
10 张问银;金宁德;刘印锋;;基于支持向量机的CD4细胞图像识别方法[J];计算机工程与科学;2009年07期
中国重要会议论文全文数据库 前10条
1 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
2 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
3 宋鑫颖;周志逵;;一种基于SVM的主动学习文本分类方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 司爱威;冯辅周;江鹏程;饶国强;王建;;基于可变风险SVM模型的故障识别方法研究[A];第十届全国振动理论及应用学术会议论文集(2011)上册[C];2011年
5 王红伟;董慧;;一种提高SVM分类精度的调制信号识别方法[A];2010年西南三省一市自动化与仪器仪表学术年会论文集[C];2010年
6 邵杰;叶宁;容亦夏;;基于SVM的多波束测深数据滤波[A];第二十九届中国控制会议论文集[C];2010年
7 周广春;潘登;;面外均布荷载作用下砌体墙板破坏模式特征值提取的SVM方法[A];工程设计与计算机技术:第十五届全国工程设计计算机应用学术会议论文集[C];2010年
8 于湘涛;周峰;张兰;魏超;;基于SVM和田口方法的石英挠性加速度计健壮性设计[A];质量——持续发展的源动力:中国质量学术与创新论坛论文集(下)[C];2010年
9 ;A Tool Wear Predictive Model Based on SVM[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
10 张睿;陈雪;马建文;;基于递归SVM的高光谱数据特征选择算法研究[A];第八届成像光谱技术与应用研讨会暨交叉学科论坛文集[C];2010年
中国重要报纸全文数据库 前10条
1 郭涛;利用SVM虚拟化技术实现容灾[N];中国计算机报;2008年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
3 本报记者 韩露;乱军之中智者胜[N];证券时报;2000年
4 ;基于网络层的存储虚拟化是主流[N];中国计算机报;2008年
5 李水根;计算机详解配伍与药效关系[N];健康报;2005年
6 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
7 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
8 清华大学 苏光大;非接触式人脸识别技术[N];计算机世界;2006年
9 本报记者 郭平;LSI发布新存储虚拟化管理器[N];计算机世界;2008年
10 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
中国博士学位论文全文数据库 前10条
1 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
2 宋国明;基于提升小波及SVM优化的模拟电路智能故障诊断方法研究[D];电子科技大学;2010年
3 张婧;基于SVM的肺结节自动识别方法研究[D];华南理工大学;2011年
4 许敏强;基于话者统计特征和SVM的文本无关话者确认研究[D];中国科学技术大学;2011年
5 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
6 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
7 王金林;基于混沌时间序列和SVM的入侵检测系统研究[D];天津大学;2010年
8 龙艳花;基于SVM的话者确认关键技术研究[D];中国科学技术大学;2011年
9 邢永忠;最小二乘支持向量机的若干问题与应用研究[D];南京理工大学;2009年
10 包鑫;稳健回归技术及其在光谱分析中的应用[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
2 姜鹤;SVM文本分类中基于法向量的特征选择算法研究[D];上海交通大学;2010年
3 曾玉祥;盲抽取与SVM方法在地球化学异常下限提取中的应用[D];成都理工大学;2010年
4 杨飞;基于SVM的煤炭销售分析预测系统的研究[D];太原科技大学;2011年
5 蔡磊;SVM及其扩展算法在图像处理中的应用研究[D];西安石油大学;2010年
6 高洁;基于SVM的基因表达谱分析和函数集VC维研究[D];华东师范大学;2011年
7 曹云生;基于支持向量机(SVM)的森林生态系统健康评价及预警[D];河北农业大学;2011年
8 严会霞;基于SVM的眼动轨迹解读思维状态的研究[D];太原理工大学;2010年
9 姚玉;基于GA-SVM算法的细胞色素酶P450突变预测[D];上海交通大学;2011年
10 杨焕;基于Basic-N-Units特征的SVM方法预测MicroRNA[D];吉林大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026