收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

支持向量机及半监督学习中若干问题的研究

薛贞霞  
【摘要】: 随着信息技术的飞速发展,在信息收集和处理的过程中,人们面临的各种数据信息规模越来越大,构成也越来越复杂,这使得机器学习日益受到人们的关注,成为目前研究的热点问题之一.由Vapnik提出的统计学习理论为机器学习问题提供了理论基础,着重研究有限样本的统计规律及学习性质,使用结构风险最小化原则,有效地提高了算法的推广能力.支持向量机是统计学习理论的最新发展,它具有全局最优、适应性强、推广能力强以及解的稀疏性等优点,能较好地解决小样本、非线性、过学习、维数灾难和局部极小等实际应用中的难题,是机器学习领域的又一里程碑,从而广泛应用于模式识别、回归估计、函数逼近以及密度估计等领城.近年来,受支持向量机的这些优势的启发,有学者提出了一些支持向量机的推广算法,比如最小二乘支持向量机,中心支持向量机,超球支持向量机(也称为支持向量域描述),基于一个球的模式分类方法等,分别从不同的方面对支持向量机进行了完善和补充.许多机器学习问题中,大量可获得的数据中仅有一小部分容易获得类别标签,而另一相对大量的部分由于各种原因(不容易获得类别标签或者获得标签的代价较大)而未能获得标签,同时利用这些样本(包括已标签样本和未标签样本)进行学习的问题被称为半监督学习.本文主要研究支持向量机及其几种推广方法与半监督学习中存在的若干问题,主要工作如下: 1.研究了大样本条件下,提高支持向量机学习速度和精度的问题.针对支持向量机中大规模样本集训练速度慢且分类精度易受野点影响的问题,提出基于壳向量和中心向量的支持向量机算法.其基本步骤是:首先分别求取每类样本点的壳向量和中心向量;然后将求出的壳向量作为新的训练集进行标准的支持向量机训练得到超平面的法向量;最后利用中心向量更新法向量以减少野点的影响得到最终的分类器.实验表明采用这种学习策略,不仅加快了训练速度同时提高了分类精度. 2.研究了支持向量机的两种推广方法(最小二乘支持向量机和基于一个球的模式分类方法)对不平衡数据集的分类问题.针对最小二乘支持向量机对不平衡数据集的分类问题,同时考虑各类样本的数量和样本分散程度的不同,对分离超平面进行调整.该方法克服传统算法只考虑样本数量不平衡的不足,提高了最小二乘支持向量机的泛化能力.针对基于一个球的模式分类方法对不平衡数据的分类问题,通过引入两个参数来分别控制两类错分率的上界,不仅提高了不平衡数据集的分类和预测的性能,而且大大缩小了参数的选择范围.实验表明我们的方法可以有效提高不平衡数据的分类性能. 3.本文从以下两条途径研究了半监督学习中的直推式学习方法,一是,针对Chen提出的渐进直推式支持向量机学习算法存在的诸如训练速度慢、回溯式学习多、学习性能不稳定等缺点,提出两种改进的渐进直推式支持向量机分类学习算法.它们继承渐进直推支持向量机渐进赋值和动态调整的规则,同时利用支持向量的信息或者可信度选择新标注的无标签样本点,结合增量支持向量机或支持向量预选取方法减少训练代价.实验结果表明所提算法不仅能较大幅度地提高算法的速度,而且在一般情况下能提高算法的精度.二是,针对支持向量机的一种推广算法—基于一个球的模式分类方法提出了其直推式学习策略,即通过一个超球面将两类数据以最大的分离比率分离,同时利用有标签样本点和无标签样本点来建立一个超球分类器的渐进直推式学习算法,这种算法在没有足够的有标签样本的信息时利用了无标签样本所提供的额外的信息,获得了更好的分类性能.实验结果表明该算法确实具有更好的性能. 4.本文研究了在已知少量有标签样本点和大量无标签样本点条件下的半监督野点探测问题.野点(也称离群点)探测问题一直是机器学习的一个难题,在许多实际问题中,野点往往是人们更感兴趣的更重要的样本点,比如在网络的入侵检测、故障诊断、疾病诊断等领域中.本文将粗糙集和模糊集理论应用于半监督野点探测问题中,提出了模糊粗糙半监督野点探测方法.这个方法是在少量有标签的样本点和模糊粗糙C均值聚类算法的帮助下,通过一个目标函数,同时最小化聚类平方误差、有标签样本点的分类误差和野点的个数.每个聚类用一个中心、一个清晰的下近似和一个模糊边界来表示,只对位于边界的样本点进一步讨论其是否为野点的可能性.实验结果表明所提的方法能在一般意义下提高野点探测精度,减少误警率,还能减少需要进一步讨论的候选野点的个数.


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 周志华;;半监督学习专刊前言[J];软件学报;2008年11期
2 刘蓉;李红艳;;半监督学习研究与应用[J];软件导刊;2010年08期
3 陈武锦;;半监督学习研究综述[J];电脑知识与技术;2011年16期
4 梁吉业;高嘉伟;常瑜;;半监督学习研究进展[J];山西大学学报(自然科学版);2009年04期
5 唐晓亮;韩敏;;一种基于极端学习机的半监督学习方法[J];大连理工大学学报;2010年05期
6 李欢;;半监督学习及其在数据挖掘中的应用[J];电脑知识与技术;2010年27期
7 崔鹏;;一种用于半监督学习的核优化设计[J];软件工程师;2013年09期
8 王艳华;杨志豪;李彦鹏;唐利娟;林鸿飞;;基于监督学习和半监督学习的蛋白质关系抽取[J];江西师范大学学报(自然科学版);2013年04期
9 梅松青;;基于自适应图的半监督学习方法[J];计算机系统应用;2014年02期
10 李燕萍;唐振民;丁辉;张燕;;半监督学习机制下的说话人辨认算法[J];计算机工程;2009年14期
11 王劲松;陈哲;冯静兰;顾明亮;;半监督学习对十个口述数字的识别[J];电声技术;2010年04期
12 郭利强;;网络博客空间中基于半监督学习的垃圾评论检测[J];图书情报工作;2012年04期
13 张燕;张晨光;张夏欢;;基于改进图半监督学习的个人信用评估方法[J];计算机科学与探索;2012年05期
14 陈可佳;韩京宇;郑正中;;半监督学习在链接预测问题中的应用[J];计算机工程与应用;2012年33期
15 周志华;;基于分歧的半监督学习[J];自动化学报;2013年11期
16 武永成;;一种基于半监督学习的非平衡分类算法[J];湖北民族学院学报(自然科学版);2013年04期
17 柳斌;李之棠;涂浩;;基于半监督学习的应用流分类方法[J];微电子学与计算机;2010年08期
18 黎铭;周志华;;基于多核集成的在线半监督学习方法[J];计算机研究与发展;2008年12期
19 曹慧;刘玉峰;;未标记样本在半监督学习中的应用方法研究[J];广西轻工业;2008年12期
20 朱明旱;邵湘怡;罗大庸;;人脑半监督学习机理分类法[J];中国图象图形学报;2011年11期
中国重要会议论文全文数据库 前10条
1 柳斌;李之棠;涂浩;;基于半监督学习的应用流分类方法[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
2 葛荐;马廷淮;;基于集成算法的半监督学习研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
3 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
4 谷方明;刘大有;王新颖;;基于半监督学习的加权支持向量域数据描述方法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 冯瑞;宋春林;;一种基于局部学习的复杂系统建模方法[A];2007中国控制与决策学术年会论文集[C];2007年
6 陈耀东;王挺;陈火旺;;半监督学习和主动学习相结合的浅层语义分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 邱慧宁;黄剑;陈羽;赖剑煌;;基于UDP的半监督学习及其在人脸识别的应用[A];第十四届全国图象图形学学术会议论文集[C];2008年
8 杨源;马云龙;林鸿飞;;基于权重标准化SimRank与半监督学习的产品属性归类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 王倩影;冯国灿;汤鑫;;δ-距离及其在半监督增强中的应用[A];第十五届全国图象图形学学术会议论文集[C];2010年
10 林良宪;利德江;蔡孟璇;邱政贤;;针对小样本分类的半监督式学习法[A];第25届全国灰色系统会议论文集[C];2014年
中国博士学位论文全文数据库 前10条
1 徐雪;样本的几何信息在半监督学习中的应用研究[D];中国科学技术大学;2010年
2 孔怡青;半监督学习及其应用研究[D];江南大学;2009年
3 兰远东;基于图的半监督学习理论、算法及应用研究[D];华南理工大学;2012年
4 唐晓亮;基于神经网络的半监督学习方法研究[D];大连理工大学;2009年
5 余国先;高维数据上的半监督学习研究[D];华南理工大学;2013年
6 潘俊;基于图的半监督学习及其应用研究[D];浙江大学;2011年
7 王娇;多视图的半监督学习研究[D];北京交通大学;2010年
8 桂杰;基于图的半监督学习和维数约简方法及其应用研究[D];中国科学技术大学;2010年
9 薛贞霞;支持向量机及半监督学习中若干问题的研究[D];西安电子科技大学;2009年
10 吕佳;基于局部学习的半监督分类问题研究[D];内蒙古大学;2012年
中国硕士学位论文全文数据库 前10条
1 刘伟涛;半监督学习方法及应用研究[D];山东大学;2011年
2 陈新勇;基于核策略的半监督学习方法研究[D];河北大学;2010年
3 冯元佶;基于图的半监督学习的改进研究[D];湘潭大学;2010年
4 黄明明;半监督学习方法研究及在警用平台中的应用[D];大连理工大学;2010年
5 易星;半监督学习若干问题的研究[D];清华大学;2004年
6 余养强;半监督学习若干问题的研究[D];福建师范大学;2010年
7 梁;基于多目标函数改进的多核学习在半监督学习和迁移学习场景中的应用[D];中山大学;2011年
8 杨伟;半监督学习方法研究[D];国防科学技术大学;2011年
9 张长帅;基于图的半监督学习及其应用研究[D];南京航空航天大学;2011年
10 惠成峰;基于半监督学习的电子商务推荐方法[D];南京大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978