收藏本站
《山西师范大学》 2014年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop云平台的分布式支持向量机研究

牛科  
【摘要】:支持向量机(Support Vector Machine, SVM)是Vapnik等人提出的一种基于统计学理论的机器学习算法。该算法在建立在统计学习理论的VC维理论和最小化结构风险原理的基础上,在解决小样本、非线性以及高维模式识别问题中都表现出了良好的性能。因此,这种新型的机器学习方法越来越受到各个领域的专家和学者们的青睐,日益成为数据挖掘技术中解决分类和回归问题的一个强有力的工具。 然而,随着数据集规模的逐渐增大,SVM算法在训练过程中寻找全局最优支持向量的过程变的十分缓慢,并且占用大量的计算机软硬件资源,甚至无法在有效的时间和实际环境允许的条件下得到训练模型。 云计算的提出为海量数据挖掘技术的发展带来了曙光。凭借云平台分布式文件系统强大的存储能力,同时将传统的数据挖掘算法进行分布式并行化处理,给海量数据挖掘技术的发展提供了良好的契机。 本文从Hadoop云平台的分布式文件系统(HadoopDistributed File System,HDFS)和分布式编程框架MapReduce两个方面对当前最流行的开源云计算平台Hadoop进行了阐述,同时,对MapReduce计算框架的内部运行机制进行了深入剖析,并在Linux环境下基于Hadoop-1.0.0版本搭建了完全分布式的Hadoop云平台。 Hadoop云平台依靠HDFS实现了对大规模数据集的分块存储。本文通过读取hdfs-site.xml配置文件中的dfs.block.size属性,将数据集按照容量大小进行了划分,然后,对分配在datanode节点上的每个block采用基于MapReduce编程框架的并行SVM算法进行并行化训练。 传统的支持向量机算法在训练过程中的参数设置主要依赖于经验值的选取。本文在并行SVM算法训练过程中,采用了遗传算法对支持向量机的核函数类型、惩罚因子以及核函数参数进行了组合优化。实验结果分析表明,与依赖于经验值进行参数设置的传统SVM算法相比,采用遗传算法进行参数组合优化的SVM算法的预测精度得到了比较显著的提高。 在UCI标准数据集上从训练时间、预测精度等方面对本文所提出的算法的可行性以及表现性能进行了的一系列实验分析,结果表明,并行化的SVM算法与传统的SVM算法相比,在不显著降低预测精度的前提下,训练时间复杂度得到了比较明显的降低。 同时,本文使用加速比分析了并行算法所需的训练时间与Hadoop集群中计算节点数目之间的关系。实验结果分析表明,随着集群中计算节点数目的不断增加,加速比呈现出较快的上升趋势。
【学位授予单位】:山西师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP181

【参考文献】
中国期刊全文数据库 前10条
1 刘胜;李妍妍;;自适应GA-SVM参数选择算法研究[J];哈尔滨工程大学学报;2007年04期
2 王敏;王文剑;;一种支持向量机集成的核选择方法[J];计算机工程与应用;2009年27期
3 张义荣;鲜明;肖顺平;王国玉;;一种基于粗糙集属性约简的支持向量异常入侵检测方法[J];计算机科学;2006年06期
4 丁阳;钱鹏江;;医学图像分割中基于数据浓缩的谱聚类算法[J];计算机工程;2012年12期
5 李成华;张新访;金海;向文;;MapReduce:新型的分布式并行计算编程模型[J];计算机工程与科学;2011年03期
6 王珏,王任,苗夺谦,郭萌,阮永韶,袁小红,赵凯;基于Rough Set理论的“数据浓缩”[J];计算机学报;1998年05期
7 张铃,张钹;佳点集遗传算法[J];计算机学报;2001年09期
8 张艳秋;王蔚;;利用遗传算法优化的支持向量机垃圾邮件分类[J];计算机应用;2009年10期
9 郑春红;焦李成;丁爱玲;;基于启发式遗传算法的SVM模型自动选择[J];控制理论与应用;2006年02期
10 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
中国博士学位论文全文数据库 前1条
1 范昕炜;支持向量机算法的研究及其应用[D];浙江大学;2003年
【共引文献】
中国期刊全文数据库 前10条
1 华文立;胡学刚;;平衡决策树分类精度与规则简易性研究[J];安徽电子信息职业技术学院学报;2006年04期
2 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
3 杨萍,杨明;基于VPRS的重要属性评价方法研究[J];安徽工程科技学院学报(自然科学版);2003年01期
4 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
5 区卫民;谭泗桥;袁哲明;柏连阳;熊洁仪;;SVR-KNN法用于除草剂QSAR研究[J];安徽农业科学;2008年35期
6 吴金华;戴淼;尹剑;;基于遗传神经网络的陕西省土地利用结构模型研究[J];安徽农业科学;2008年36期
7 韩勇鹏;;SVM方法及其在乳制品分类问题上的应用[J];安徽农业科学;2009年08期
8 程伟;张燕平;赵姝;;支持向量机在粮食产量预测中的应用[J];安徽农业科学;2009年08期
9 武素华;;基于最小二乘支持向量机的土壤含水量检测的研究与分析[J];安徽农业科学;2009年09期
10 陈念;沈佐民;;基于化学成分检测和SVM分类的茶叶品质鉴定[J];安徽农业科学;2010年15期
中国博士学位论文全文数据库 前10条
1 张杏莉;几何约束求解关键问题研究[D];山东科技大学;2010年
2 樊建聪;分布估计学习算法研究[D];山东科技大学;2010年
3 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
4 戴运桃;粒子群优化算法研究及其在船舶运动参数辨识中的应用[D];哈尔滨工程大学;2010年
5 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
6 朱广平;混响干扰中的信号检测技术研究[D];哈尔滨工程大学;2009年
7 曹宇;利用遗传算法对声障板优化设计的研究[D];哈尔滨工程大学;2010年
8 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
9 时长江;豆科类杂草种子图像识别系统研究[D];中国海洋大学;2009年
10 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 钱鹏江;王士同;邓赵红;徐华;;基于最小包含球的大数据集快速谱聚类算法[J];电子学报;2010年09期
2 李未,黄文奇;一种求解合取范式可满足性问题的数学物理方法[J];中国科学(A辑 数学 物理学 天文学 技术科学);1994年11期
3 朱永生,张优云;支持向量机分类器中几个问题的研究[J];计算机工程与应用;2003年13期
4 王清翔;广凯;潘金贵;;基于支持向量机的邮件过滤[J];计算机科学;2007年09期
5 樊兴华;孙茂松;;一种高性能的两类中文文本分类方法[J];计算机学报;2006年01期
6 李钢;王蔚;张胜;;支持向量机在脑电信号分类中的应用[J];计算机应用;2006年06期
7 周锋;李旭伟;;一种改进的MapReduce并行编程模型[J];科协论坛(下半月);2009年02期
8 杜树新;污水生化处理过程建模与控制[J];控制理论与应用;2002年05期
9 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
10 孙广中;肖锋;熊曦;;MapReduce模型的调度及容错机制研究[J];微电子学与计算机;2007年09期
【相似文献】
中国期刊全文数据库 前10条
1 杨强,吴中福,余平,钟将;基于正反馈的支持向量机[J];重庆大学学报(自然科学版);2004年05期
2 孙蕾,周明全,李丙春;一种非平衡分布数据的支持向量机新算法[J];计算机应用;2004年12期
3 黄勇;郑春颖;宋忠虎;;多类支持向量机算法综述[J];计算技术与自动化;2005年04期
4 杨强,吴中福,余萍,钟将;一种新型支持向量机[J];重庆大学学报(自然科学版);2005年02期
5 张猛,付丽华,王高峰;模糊临近支持向量机[J];计算机工程与应用;2005年05期
6 张浩然;汪晓东;张长江;徐秀玲;;一种新型回归支持向量机的学习算法[J];测试技术学报;2006年02期
7 王晔;黄上腾;;基于间隔区域样本数量的加权支持向量机[J];计算机工程;2006年06期
8 梁新荣;刘智勇;孙德山;毛宗源;;支持向量机在混沌系统预测中的应用[J];计算机应用研究;2006年05期
9 卢敏;张展羽;冯宝平;贾仁辅;;基于支持向量机的区域水安全预警模型及应用[J];计算机工程;2006年15期
10 张阳;刘永革;景旭;;一种改进的线性支持向量机的特征筛选算法[J];西北农林科技大学学报(自然科学版);2006年10期
中国重要会议论文全文数据库 前10条
1 侯澍旻;李友荣;刘光临;;基于支持向量机的设备振动信号趋势预测[A];12省区市机械工程学会2006年学术年会湖北省论文集[C];2006年
2 张晓滨;尹英顺;赵培坤;马秀兰;;基于渐进直推支持向量机的半对半多类文本分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 徐会敏;王玉兰;;线性规划支持向量机模型的研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
4 晏庆华;;支持向量机算法综述[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
5 郭一楠;程健;肖大伟;杨梅;;分布式多分类支持向量机[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年
6 林关成;李亚安;;一种支持向量机训练集选取算法改进[A];2009’中国西部地区声学学术交流会论文集[C];2009年
7 杨凌;刘玉树;;基于支持向量机的坦克识别算法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
8 李方方;赵英凯;贾玉莹;杜杰;;基于最小二乘支持向量机的油品质量预测[A];第25届中国控制会议论文集(上册)[C];2006年
9 曾江辉;耿金凤;汪邦军;郝建春;;面向时间序列质量波动预测的支持向量机回归模型研究[A];使命与责任—以质量方法促转型升级——第五届中国质量学术与创新论坛论文集(上)[C];2012年
10 戴林超;吴琳丽;赵海娜;李训铭;;基于最小二乘支持向量机的故障预测法[A];2009年中国智能自动化会议论文集(第六分册)[中南大学学报(增刊)][C];2009年
中国博士学位论文全文数据库 前10条
1 周喜川;非可信环境下的支持向量机研究[D];浙江大学;2010年
2 常甜甜;支持向量机学习算法若干问题的研究[D];西安电子科技大学;2010年
3 王超;三类不确定支持向量机及其应用[D];河北大学;2013年
4 张国云;支持向量机算法及其应用研究[D];湖南大学;2006年
5 李华庆;支持向量机及其在人脸识别中的应用研究[D];上海交通大学;2006年
6 杜喆;几类支持向量机变型算法的研究[D];西安电子科技大学;2009年
7 李海生;支持向量机回归算法与应用研究[D];华南理工大学;2005年
8 刘京礼;鲁棒最小二乘支持向量机研究与应用[D];中国科学技术大学;2010年
9 董春曦;支持向量机及其在入侵检测中的应用研究[D];西安电子科技大学;2004年
10 唐发明;基于统计学习理论的支持向量机算法研究[D];华中科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 周林成;小波支持向量机在数据建模中的研究及应用[D];江南大学;2008年
2 王芳;支持向量机算法的研究及应用[D];江南大学;2008年
3 高泓;基于支持向量机的动态预测方法与实现技术研究[D];大庆石油学院;2009年
4 王永吉;支持向量机泛化性能的研究及其应用[D];江南大学;2009年
5 梁宏霞;支持向量机模型研究及应用[D];辽宁师范大学;2009年
6 孙庆嘉;多类支持向量机的研究与分析[D];北京交通大学;2010年
7 朱杰;基于最小二乘支持向量机的传染病预测与研究[D];苏州大学;2009年
8 王琳;支持向量机及相关理论研究[D];辽宁师范大学;2010年
9 万家强;支持向量机在质量管理中的应用研究[D];重庆理工大学;2010年
10 李响;基于半监督支持向量机的网络流量分类机制的研究与实现[D];北京邮电大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026