收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于SVM的文本分类应用研究

伍岳  
【摘要】:随着社会信息化的不断深入,在生活中尤其是在互联网上,无时无刻不在产生着大量的信息,并且,这个产生速度也越来越快,进一步加剧了信息过载现象。如何自动并且高效地处理这些海量信息中所包含的有效数据,是一个重要的研究领域。文本分类是这个领域中的一个方向,主要目的是根据所给的文本,将其划分至所属的类别,以供进一步的处理。其应用广泛,方法多样,因而广受关注。在解决文本分类问题的方法中,主要方向分为三种:词匹配法、知识工程法、统计学习方法。支持向量机(SVM)属于统计学习方法,建立在坚实的理论基础上,有着不需要特定领域的专业知识、易于迁移、适合高维数据的处理、能解决小样本问题、泛化性能较好等优点,在文本分类、图像识别等分类问题的解决中有良好的表现。在这个前提下,本文主要研究的是通过SVM进行文本分类的理论和方法,以包括在分类过程中需要完成的各个环节,如样本集的选择、编码转换、中文分词、特征提取、文本的向量化等,并对整个流程进行系统化的设计和实现。在实现中,对分类算法进行改进,从而获得更好的性能。本文对于SVM理论本身进行了简单的介绍,其中包括分类的依据、分类器的求解,在此基础上分析了如何将其理论转化为应用的序列最小优化算法、多类分类问题的转化与决策方式等。为了能将SVM应用于文本分类问题,研究了常见的特征评估函数、卡方检验和TF-IDF。除了对SVM文本分类系统进行实现外,还进行了下面的工作:(1)在预处理的特征提取过程中,将卡方检验与TF-IDF进行组合使用并加以简化,提高了特征提取和向量化工作的效率;(2)在一般的SVM解决多类问题的决策方式基础上,本文提出了一种可进行非单一类别决策(NUD)的文本分类决策方式,可以用于样本集中同一样本所属的类别可能相容的情况,并对其分类器的组合形式进行说明,分析了这种方法的应用情形和优劣之处,并通过实验进行验证;(3)为了辅助泛化测试,并对用户提供比较方便的用于文本分类的接口,本文实现了基于标记窗算法的网页正文提取功能;(4)为了寻找最适合文本分类的核函数以及相关的参数,进行了交叉检验,获得了充分的测试数据并进行比较,还研究了惩罚参数对于特定的类别分类性能的影响关系。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 邓森;杨军锋;郭明威;郭创;;基于模糊SVM和虚拟仪器的模拟电路故障诊断研究[J];计算机测量与控制;2011年04期
2 郭有贵;曾萍;朱建林;;交-交矩阵变换器SVM的新颖调制模式(英文)[J];系统仿真学报;2009年22期
3 吴学文;索丽生;王志坚;;基于SVM的入库径流混沌时间序列预测模型及应用[J];系统仿真学报;2011年11期
4 程博,吴国平;基于SVM的脱机手写汉字识别[J];现代计算机;2005年09期
5 钟明霞;;基于神经网络和SVM的微钙化簇分类方法[J];计算机时代;2008年05期
6 宋国明;王厚军;姜书艳;刘红;;一种聚类分层决策的SVM模拟电路故障诊断方法[J];仪器仪表学报;2010年05期
7 张淑雅;赵一鸣;李均利;;基于SVM的图像分类算法与实现[J];计算机工程与应用;2007年25期
8 宋国明;王厚军;刘红;姜书艳;;基于提升小波变换和SVM的模拟电路故障诊断[J];电子测量与仪器学报;2010年01期
9 王志明,蒋加伏,唐贤瑛;基于SVM的小波图像去噪[J];湖南科技学院学报;2005年05期
10 解焱陆,吴礼福,戴蓓蒨,李辉;基于SVM评分融合的分类短语音话者确认系统[J];数据采集与处理;2005年02期
11 程学云;徐慧;朱玲玲;;基于SVM的分布式入侵检测系统[J];南通大学学报(自然科学版);2008年03期
12 李汉彪;刘渊;;一种SVM入侵检测的融合新策略[J];计算机工程与应用;2012年04期
13 马翔;李展;;基于模糊处理和上下文敏感SVM的协同过滤推荐新方法[J];电脑知识与技术;2010年06期
14 肖玉飞;刘祖润;李目;;基于小波包能量熵与SVM的模拟电路故障诊断[J];电子测量技术;2011年06期
15 李云峰;胡文平;;SVM多类分类算法及其在手写体数字识别中的应用[J];物流工程与管理;2012年07期
16 唐小力;吕宏伟;;基于SVM的文本多类分类方法研究[J];电脑知识与技术;2006年08期
17 赵晖;荣莉莉;;基于模糊核聚类的SVM多类分类方法[J];系统工程与电子技术;2006年05期
18 宋岩;潘丰;;基于SVM软测量技术的污水处理控制系统设计[J];自动化与仪表;2008年11期
19 张振领;贾仰理;;考虑性别差异基于SVM的说话人识别研究[J];计算机工程与设计;2008年06期
20 吴德辉;李辉;刘青松;戴蓓蒨;;基于因子分析信道失配补偿的SVM话者确认方法[J];模式识别与人工智能;2010年01期
中国重要会议论文全文数据库 前10条
1 滕卫平;胡波;滕舟;钟元;;SVM回归法在西太平洋热带气旋路径预报中的应用研究[A];S1 灾害天气研究与预报[C];2012年
2 王红军;徐小力;付瑶;;基于SVM的旋转机械故障诊断知识获取[A];第八届全国设备与维修工程学术会议、第十三届全国设备监测与诊断学术会议论文集[C];2008年
3 陈兆基;杨宏晖;杜方键;;用于水下目标识别的选择性SVM集成算法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
4 程丽丽;张健沛;杨静;马骏;;一种改进的层次SVM多类分类方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 宁伟;苗雪雷;胡永华;季铎;张桂平;蔡东风;;基于SVM的无参考译文的译文质量评测[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
7 刘旭;罗鹏飞;李纲;;基于拟合角特征及SVM的雷达辐射源个体识别[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年
8 罗浩;谢军龙;胡云鹏;;地源热泵空调系统故障诊断中SVM的应用[A];全国暖通空调制冷2008年学术年会资料集[C];2008年
9 刘闪电;王建东;;权重部分更新的大规模线性SVM求解器[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
10 王舰;汤光明;;基于SVM的图像隐写检测分析[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
中国硕士学位论文全文数据库 前10条
1 张汉女;基于SVM的海岸线提取方法研究[D];东北师范大学;2010年
2 刘军;基于SVM的半监督网络入侵检测系统[D];复旦大学;2009年
3 张永俊;基于SVM的增量入侵检测方法研究[D];西安科技大学;2013年
4 田幂;基于概率SVM的肿瘤预警系统的设计与实现[D];吉林大学;2013年
5 王硕;基于广义S变换和SVM的电压暂降检测与识别方法研究[D];燕山大学;2013年
6 杨涛;基于SVM的中国医药制造企业财务危机预警研究[D];厦门大学;2009年
7 周洪利;基于SVM的网络信息过滤研究[D];山东师范大学;2008年
8 齐振东;基于SVM的地基土承载力预测[D];吉林大学;2008年
9 任琼;基于SVM的余杭生态公益林类型的遥感分类研究[D];南京林业大学;2008年
10 杨洋;基于SVM的印刷品缺陷在线检测[D];华中科技大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978