基于半监督集成支持向量机的土地覆盖遥感分类方法研究
【摘要】:土地覆盖真实的反映了地表覆盖情况,它与人类的生产、生活休戚相关。长期以来,土地覆盖变化的研究一直是全球环境研究的热点,无论从社会经济角度还是从生态环境角度均具有重要的意义。为了全面掌握土地覆盖变化信息,迫切需要使用切实有效的方法实现土地覆盖宏观、动态、大尺度的制图与监测,遥感技术迅猛发展为这一需求提供可能。然而,目前遥感信息处理和分类的水平大大滞后于遥感影像获取技术的发展。因此,研究新理论、新方法提高遥感信息的处理能力具有十分重要的意义和应用前景。支持向量机(support vector machines,SVM)是近年来机器学习与模式识别领域新的研究焦点,它具有结构简单、适应性强,全局最优等特点,能较好地解决高维特征、非线性,过学习与不确定性等问题,广泛的应用于土地覆盖遥感分类。尽管SVM在遥感信息获取中取得了很好的效果,但仍存在有待改进和完善之处,主要表现在以下两方面:1)参数选择问题,即不准确的分类参数常常影响分类器的分类精度;2)样本不足且代表性不好问题,即当训练样本集远远小于测试样本集,即便SVM具有较强的泛化性,也难以给出令人满意的结果。围绕这些问题本论文开展了如下工作:
1.针对SVM分类过程中核函数选择及参数设置不准确的缺点,提出一种基于自适应变异粒子群优化SVM参数模型(Adaptive mutation particle swarmoptimization SVM,AMPSO-SVM)。AMPSO在运行过程中根据群体适应度方差以及最优解的大小来确定当前最佳粒子的变异概率。与传统粒子群(particleswarm optimization, PSO)优化SVM参数模型(PSO-SVM)相比,AMPSO-SVM能够快速摆脱局部搜索的束缚,提高全局搜索的性能,克服早熟收敛造成分类参数寻找不准确的缺点,同时保持了种群的多样性。最后应用该模型进行多光谱遥感影像的土地覆盖分类实验,并与SVM分类方法、PSO-SVM分类方法进行对比。分类精度从传统PSO-SVM的91.50%提高到93.59%,Kappa系数由0.8903提高为0.9175。c和的取值得到的分类结果明显优于SVM的手工设置值100和0.143所得到的结果(分类精度87.07%,Kappa系数0.8372),结果表明,AMPSO-SVM模型有效的提高了遥感影像的分类精度。
2.提出了一个新的自训练半监督支持向量机方法(PS3VM)。自训练半监督算法最大弊端在于“错误累积”现象,即在学习过程中,一旦某个分类出错,将导致这个错误被继续学习与加强。为了克服这一现象,论文在自训练半监督SVM(S3VM)的基础上引入两个算法:1)从分类器的构造角度,利用自适应变异粒子群算法对SVM参数优化,以提高单个分类器的分类精度;2)在未标记样本的标注阶段,采用Gustafson-kessel模糊聚类算法(GKclust)将最接近样本的有效无标签样本作为标注对象,以控制错误信息的输入。为了测试所提模型的有效性,分别针对遥感的数字化集合和影像集合进行分类实验,并与AMPSO-SVM(简称PSVM)监督分类方法、未改进自训练S3VM方法进行对比实验,由PS3VM产生的分类精度(95.10%)分别比S3VM(93.06)高出2.04;比PSVM(90.81%)高出4.29%。实验结果一方面说明了己标记样本和未标记样本的用量比例必须满足一定的阈值要求(1:3),才能产生最小的泛化误差;另一方面证实了利用所提出学习框架能够获得较好的分类精度。
3.对于样本不足且代表不好而造成的小样本问题,学者们普遍采用半监督学习和集成学习两种范式对SVM进行改进。然而,集成学习与半监督学习之间存在许多互补性,且二者的混合范式(即半监督集成)可以更大程度地改进学习系统的泛化能力。因此,本文设计了一种新的半监督集成方案(EPS3VM),PS3VM半监督方法利用未标记数据有效的应对训练样本不足缺点的同时也产生若干性能差异的个体分类器,将这些个体分类器采用加权集成策略进一步提高分类模型的泛化能力。为了测试其性能,应用该模型进行多光谱遥感影像的土地覆盖分类实验,并与其相关算法进行对比。分类精度从92.16%(PS3VM)提高到96.88%,Kappa系数由0.9010提高为0.9606。结果表明,EPS3VM克服传统SVM参数选择不准确的同时有效的应对了小样本问题,分类性能更优。
【关键词】:支持向量机 自适应变异粒子群 半监督学习 Self-training Gustafson-kessel 集成学习 土地覆盖 遥感分类 【学位授予单位】:中国科学院研究生院(东北地理与农业生态研究所)
【学位级别】:博士
【学位授予年份】:2013
【分类号】:P237
【目录】:
- 摘要8-10
- Abstract10-15
- 第一章 绪论15-35
- 第一节 选题依据、目的与意义15-18
- 一、选题依据15-17
- 二、选题目的17-18
- 三、选题意义18
- 第二节 国内外研究进展18-30
- 一、土地覆盖定义及研究现状18-21
- 二、支持向量机遥感分类研究进展21-25
- 三、半监督学习理论及研究进展25-27
- 四、集成学习理论及研究进展27-30
- 第三节 研究内容、技术路线和创新点30-35
- 一、研究内容30-31
- 二、技术路线31-34
- 三、创新点34-35
- 第二章 研究区位置及遥感影像数据集35-45
- 第一节 研究区位置及遥感影像集35-37
- 一、研究区位置35
- 二、研究区影像集35-36
- 三、分类体系的建立36-37
- 第二节 遥感影像数字集37-43
- 一、样本采集37-39
- 二、特征选取39-43
- 本章小结43-45
- 第三章 支持向量机参数优化方法研究45-63
- 第一节 支持向量机理论及参数优化算法研究进展45-50
- 一、支持向量机理论45-48
- 二、支持向量机参数优化方法研究进展48-50
- 第二节 基于自适应变异粒子群参数优化的土地覆盖分类模型50-56
- 一、传统粒子群算法(PSO)51
- 二、自适应变异粒子群优化算法(AMPSO)51-54
- 三、土地覆盖分类模型构建54-56
- 第三节 实验结果与分析56-62
- 一、实验影像选取56-57
- 二、特征选取及样本集表示57-58
- 三、核函数的选取58
- 四、实验参数及精度评价指标58-59
- 五、实验结果与比较59-62
- 本章小结62-63
- 第四章 基于模糊聚类的半监督支持向量机土地覆盖分类方法研究63-85
- 第一节 自训练半监督学习63-66
- 一、无标签样本的重要性63-64
- 二、自训练半监督算法64-66
- 第二节 模糊聚类理论66-72
- 一、聚类的概念66-67
- 二、常用聚类算法67-71
- 三、聚类有效性验证71-72
- 第三节 一种新的自训练半监督支持向量机分类模型构建72-74
- 一、未标记样本的选择依据72-73
- 二、基于 GKclust 的自训练半监督支持向量机设计流程73-74
- 三、基于 GKclust 的自训练半监督支持向量机算法74
- 第四节 实验结果与分析74-83
- 一、遥感影像数字化75-76
- 二、参数设置76
- 三、模糊聚类算法的比较76-78
- 四、无标签样本的参与比例78-81
- 五、土地覆盖遥感图像分类81-83
- 本章小结83-85
- 第五章 基于半监督集成支持向量机的土地覆盖分类研究85-95
- 第一节 集成学习框架85-88
- 一、个体生成方法86-87
- 二、结论生成方法87-88
- 第二节 半监督集成支持向量机的土地覆盖分类模型构建88-90
- 一、个体生成算法89-90
- 二、结论生成算法90
- 第三节 实验结果与分析90-94
- 一、实验数据90-91
- 二、结果与精度分析91-94
- 本章小结94-95
- 第六章 总结与展望95-99
- 第一节 研究结论95-96
- 第二节 论文不足之处96-97
- 第三节 研究展望97-99
- 参考文献99-117
- 攻读博士期间发表论文117-119
- 致谢119-120