收藏本站
《大连理工大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

支持向量机文本分类算法研究

张世荣  
【摘要】: 支持向量机(SVM)作为一种基于统计学习理论的新型机器学习方法,不仅较好地解决了非线性、高维数、小样本集合、局部极小点等问题,同时相对于神经网络有更高的泛化能力,是机器学习领域新的研究热点。文本分类是一种基于内容的自动信息管理技术,其稀疏性大、维数高;支持向量机对于稀疏性不敏感,处理高维数问题具有较大优势,因此,支持向量机非常适用于文本分类问题。但是,支持向量机分类算法仍然存在不足。例如,当训练集特别是文本训练集中样本数目多、噪音点多时,支持向量机由于过学习会增加训练以及分类时间,同时还会降低分类正确率等。本文针对支持向量机分类算法特别是它在文本分类中存在的问题进行了深入的研究,主要工作如下: 首先,支持向量机在处理两类分类问题时,当两类样本混杂严重时会降低分类精度。因此,在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离修剪混淆点,提出了一种改进的NN-SVM——KCNN-SVM算法。实验表明,KCNN-SVM算法与SVM以及NN-SVM相比,有着更高的分类精度和更快的训练、分类时间。 其次,尽管SVM可以利用文本向量所有的特征进行分类并取得良好的性能,但是在某些特殊应用中,例如高速数据处理环境中,为了获得更高的效率,仍然需要对特征空间进行降维处理。本文通过潜在语义索引(LSI)分析文本向量各维与文本的语义联系进行特征抽取,同时利用KCNN-SVM算法对降维后的训练集进行修剪,最后用标准支持向量机建立文本分类模型。实验表明,基于潜在语义索引的支持向量机文本分类模型与标准的支持向量机相比,受到文本分词维数以及支持向量机惩罚因子选取的影响更小,其分类正确率更高。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP181

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 邝神芬;;直推式支持向量机在垃圾邮件识别中的应用[J];韶关学院学报;2012年02期
2 鲍蕾;黄曙光;李永亮;;基于商空间粒度合成的中文文本表示法[J];小型微型计算机系统;2011年12期
中国硕士学位论文全文数据库 前4条
1 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
2 严鸿毅;基于聚焦爬虫的网上药品信息监测系统[D];浙江工业大学;2011年
3 马运勇;概率神经网络的结构优化研究及其应用[D];哈尔滨工业大学;2008年
4 祁钰;WEB日志过滤技术的研究与实现[D];哈尔滨工业大学;2009年
【参考文献】
中国期刊全文数据库 前2条
1 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期
2 李红莲,王春花,袁保宗;一种改进的支持向量机NN-SVM[J];计算机学报;2003年08期
【共引文献】
中国期刊全文数据库 前10条
1 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
2 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
3 陈征;;一类系统的二次李雅普诺夫函数存在性的判断[J];安徽电子信息职业技术学院学报;2006年04期
4 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
5 孙小军;焦建民;何俊红;;解优化问题的遗传加速信赖域搜索算法[J];安徽大学学报(自然科学版);2008年03期
6 张家昕;段复建;;一种结合NCP函数的SQP滤子新算法[J];安徽大学学报(自然科学版);2010年05期
7 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
8 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
9 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
10 高洪;孟舒;查为民;李玲纯;张海涛;;6-3-3并联机构物理样机结构优化[J];安徽工程大学学报;2011年03期
中国重要会议论文全文数据库 前10条
1 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
3 刘钰;韩峰;董楠;陆希成;雷鸣;;爆炸容器安全概率的统计分析方法[A];全国危险物质与安全应急技术研讨会论文集(下)[C];2011年
4 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
5 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
6 周绮凤;林成德;罗林开;彭洪;;一种基于黎曼度量的训练样本类不平衡SVM分类方法研究[A];第二十六届中国控制会议论文集[C];2007年
7 顾小军;杨世锡;钱苏翔;;基于支持向量机的旋转机械多类故障识别研究[A];第二十六届中国控制会议论文集[C];2007年
8 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
9 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
10 蒋少华;桂卫华;阳春华;唐朝晖;蒋朝辉;;基于主元分析与支持向量机的方法及其在密闭鼓风炉过程监控诊断中的应用[A];第二十七届中国控制会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
3 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
4 谭佳琳;粒子群优化算法研究及其在海底地形辅助导航中的应用[D];哈尔滨工程大学;2010年
5 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
6 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
7 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
8 陈得宇;基于MAS的智能电压控制系统研究[D];哈尔滨工程大学;2010年
9 李晚龙;六自由度Stewart平台分散智能控制研究[D];哈尔滨工程大学;2010年
10 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
2 张小亮;非线性规划的信赖域算法[D];河南理工大学;2010年
3 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
4 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
5 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
6 徐芳芳;优化问题的PVD算法研究[D];山东科技大学;2010年
7 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
8 韩晓峰;高斯混合模型及在探测网络社区结构中的应用[D];山东科技大学;2010年
9 姜成玉;基于支持向量机的时间序列预测[D];辽宁师范大学;2010年
10 李海清;支持向量机在金融市场预测中的应用[D];辽宁师范大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 黄德双;基于PCA的概率神经网络模式分类方法[J];北京理工大学学报;1996年01期
2 张璇;左敏;;一种改进的朴素贝叶斯分类器在文本分类中的应用研究[J];北京工商大学学报(自然科学版);2009年04期
3 陈丽君;;聚焦爬虫常见算法分析[J];电脑知识与技术;2008年S1期
4 杨方启;杨宇;;网络售假行为的法律规制问题探讨[J];中国工商管理研究;2009年04期
5 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期
6 安艳辉;董五洲;游自英;;基于改进的朴素贝叶斯文本分类研究[J];河北省科学院学报;2007年01期
7 林珊,宁国宁,赵之霖;中文分词在邮件过滤系统中的应用[J];华南理工大学学报(自然科学版);2004年S1期
8 刘林,汪涛,樊孝忠;主题爬虫的解决方案[J];华南理工大学学报(自然科学版);2004年S1期
9 熊汉春,贺前华,李海洲;一种 PNN 网络的 EM 训练算法[J];华南理工大学学报(自然科学版);1998年07期
10 高秀梅,杨静宇,袁小华,杨健;广义主分量分析及人脸识别[J];计算机工程与应用;2003年11期
中国博士学位论文全文数据库 前4条
1 徐振宁;基于本体的Web数据语义信息的表示与处理方法研究[D];中国人民解放军国防科学技术大学;2002年
2 安金龙;支持向量机若干问题的研究[D];天津大学;2004年
3 彭新俊;支持向量机若干问题及应用研究[D];上海大学;2008年
4 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
2 苏力华;基于向量空间模型的文本分类技术研究[D];西安电子科技大学;2006年
3 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
4 蔡曲林;基于概率神经网络的模式识别[D];国防科学技术大学;2005年
5 石佑红;基于支持向量机的文本分类的研究[D];北京交通大学;2007年
6 丁琼;基于向量空间模型的文本自动分类系统的研究与实现[D];同济大学;2007年
7 应伟;基于支持向量机的文本分类方法研究[D];天津大学;2006年
8 陈栋梁;支持向量机训练算法研究[D];合肥工业大学;2007年
9 张真;基于语义相似度的中文文本分类系统的研究与实现[D];大连海事大学;2007年
10 陈奋;过滤型网络爬虫的研究与设计[D];厦门大学;2007年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 郭宇明;用于饮料辨识的电子舌技术研究[D];东北电力大学;2011年
【二级参考文献】
中国期刊全文数据库 前3条
1 张鸿宾,孙广煜;近邻法参考样本集的最优选择[J];电子学报;2000年11期
2 李晓黎,史忠植;用数据采掘方法获取汉语词性标注规则[J];计算机研究与发展;2000年12期
3 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
【相似文献】
中国期刊全文数据库 前10条
1 刘美茹;;基于LSI和SVM的文本分类研究[J];计算机工程;2007年15期
2 周宽久;张世荣;;支持向量机分类算法研究[J];计算机工程与应用;2009年01期
3 张秋余;刘洋;;使用基于SVM的局部潜在语义索引进行文本分类[J];计算机应用;2007年06期
4 杨清;李方敏;;基于LSI和SVM分类法的定题邮件过滤研究[J];计算机工程与应用;2006年35期
5 刘洋;张秋余;;基于LSI和SVM相结合的文本分类研究[J];计算机工程与设计;2007年23期
6 高争艳;张玉双;王慕坤;;基于核K-均值聚类和支持向量机结合的说话人识别方法[J];哈尔滨理工大学学报;2008年05期
7 周彦利;周创明;王晓丹;;基于核的K近邻法[J];航空计算技术;2006年05期
8 杨清;李方敏;;基于潜在语义模型的SVM入侵检测研究[J];计算机工程与应用;2007年05期
9 张国宣,孔锐,施泽生,郭立,刘士建,薛明东;基于核聚类方法的多层次支持向量机分类树[J];控制与决策;2004年11期
10 王金艳;冯建武;刘万里;;一种不平衡支持向量机的校正方法[J];计算机应用;2007年12期
中国重要会议论文全文数据库 前10条
1 林杰华;张斌;李冬森;宋华茂;余志强;王浩;;支持向量机在电力客户信用评级中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
2 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
3 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
4 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
5 涂冬成;薛龙;刘木华;赵进辉;沈杰;吁芳;;基于支持向量机的鹅肉肉色客观评定研究[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
6 杨凌;刘玉树;;基于支持向量机的坦克识别算法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
7 师旭超;巴松涛;;基于支持向量机方法的深基坑变形预测[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(上册)[C];2004年
8 张军;;支持向量机方法在地下水位干扰排除中的初步应用[A];2007年地震流体学术研讨会论文摘要集[C];2007年
9 许建生;盛立东;;基于改进的支持向量机和BP神经网络的识别算法[A];第八届全国汉字识别学术会议论文集[C];2002年
10 荣海娜;张葛祥;张翠芳;;基于支持向量机的非线性系统辨识方法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
2 李水根;计算机详解配伍与药效关系[N];健康报;2005年
3 清华大学 苏光大;非接触式人脸识别技术[N];计算机世界;2006年
4 YMG记者 李仁 通讯员 曲华明 孙运智;我市九项目进入省“盘子”[N];烟台日报;2010年
5 上海大学理学院教授、副院长 陆文聪;酷爱化学 孜孜以求[N];中国化工报;2006年
6 ;选择合适的数据挖掘算法[N];计算机世界;2007年
7 记者 耿挺;蛋白质功能算出来[N];上海科技报;2007年
8 周颖;王米渠与中医心理学[N];中国中医药报;2006年
9 记者 张云普通讯员 全攀峰 安强强;大庆物探深度域地震资料岩性解释技术获得五大突破[N];中国石油报;2008年
10 本报记者 冯治恩;敢与“雷公”试比高[N];铜川日报;2008年
中国博士学位论文全文数据库 前10条
1 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
2 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
3 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
4 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
5 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
6 朱燕飞;锌钡白回转窑煅烧过程智能建模研究[D];华南理工大学;2005年
7 田英杰;支持向量回归机及其应用研究[D];中国农业大学;2005年
8 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
9 任东;基于支持向量机的植物病害识别研究[D];吉林大学;2007年
10 杨金芳;支持向量回归在预测控制中的应用研究[D];华北电力大学(河北);2007年
中国硕士学位论文全文数据库 前10条
1 张世荣;支持向量机文本分类算法研究[D];大连理工大学;2007年
2 王奇安;基于广泛内核的CVM算法研究及参数C的选择[D];南京航空航天大学;2009年
3 刘艳伟;支持向量机方法在感潮河段洪峰水位预报中的应用[D];浙江大学;2010年
4 杨镭;支持向量机算法设计及在高分辨雷达目标识别中的应用[D];国防科学技术大学;2010年
5 童振;基于支持向量机的电解液成分预测[D];东北大学;2008年
6 聂小芳;模糊粗糙集与支持向量机在煤与瓦斯突出预测中的应用研究[D];辽宁工程技术大学;2009年
7 鄢常亮;基于支持向量机的高炉向凉向热炉况预测研究[D];内蒙古科技大学;2010年
8 韩叙东;基于支持向量机的水电故障分类器的设计与实现[D];东北大学;2008年
9 冯杰;慢时变对象的支持向量机建模与在线校正方法研究[D];东北大学;2009年
10 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026