有监督的相似性度量学习研究与应用
【摘要】:近来大数据概念十分火热,机器学习作为其中的关键技术,相关研究正受到越来越多的重视,并在实践中得到了广泛应用。相似性度量是机器学习中一个非常重要的概念,很多主流机器学习方法如最近邻分类、支持向量机分类和K-Means聚类等,它们的性能都与样本间相似性度量函数紧密相关。现成的度量函数如欧式距离等未必能很好地捕获数据样本间的相似性,一个好的度量函数应该是与具体任务相适应的。然而手工选择或构造一个好的相似度量通常十分困难,因而近年来度量学习成为了一个热门的研究主题,它旨在利用数据监督信息,自动地学习一个好的相似度度量函数,从而提升学习系统的性能。目前已经有许多度量学习方法被提出,典型的是利用样本间的相似约束作为监督信息学习一个以矩阵为参数的相似度量函数,从而在特定问题中更好地捕获样本间潜在的相似特性。本文关注的重点是如何通过度量学习提升后续学习任务的性能,因为度量学习的目的不仅是为了获得好的相似性函数,更是期望结果学习器能依据所学度量获得性能更好的预测模型,对此仍有很多问题亟待解决。目前有监督的相似性度量学习方法主要是一类两步式学习,即先学习相似度函数,再将其放入结果学习器中训练得到最终的预测模型。这里的结果学习器是指根据任务选择的不同学习方法,如最近邻分类等。在两步式学习中,相似度量的学习和结果学习器的训练实际是分开的,尽管许多经验结果表明这类方法能提升最近邻分类这种局部近邻模型的性能,但仍需从理论上给出更多的解释;为了提升度量有效性,目前的方法常利用大量数据进行学习,而在大数据背景下新数据常常是逐步收集获得,对应地,度量学习将在增量式场景下进行,如何准确而快速地更新度量,仍需设计有效的算法;此外,目前两步式方法并不能保证所学度量能提升支持向量机等全局学习模型的性能,因而近期的研究越来越关注单步式的相似度量学习,即如何将相似度量函数和结果学习器有机结合进行联合学习,也有待进一步探索。针对上述的一些问题,本文开展了初步的研究与探索,主要的研究成果如下:1、度量学习在最近邻分类中的间隔分布解释:两步式度量学习方法常用最近邻分类器评估其有效性,尽管经验结果表明能提高最近邻分类精度,但尚未从理论上给出所学度量与最近邻分类器性能之间的联系,本文从间隔分布的角度做了解释,给出了最近邻分类器关于所学度量的泛化误差上界,表明这类方法是通过增大最近邻的间隔分布,提升分类性能。这一解释在已有方法上进行了实验验证,并且可用于设计新的度量学习算法。2、基于支持向量方法的增量式度量学习:对于现实环境下增量获得的数据,度量函数应根据新数据增量更新,而现有方法往往不够灵活。为此,提出一种基于支持向量方法的增量式度量学习算法,它将用于分类的支持向量学习推广应用到度量学习场景中,使度量函数能根据新信息灵活地更新。文中证明了增量更新所得度量与批学习所得度量是一致的,给出了算法的可行性与收敛性理论证明,并通过实验验证了算法有效性。3、针对回归任务的核嵌入式的度量学习:针对回归任务,提出一种核嵌入式的单步式度量学习算法。该方法结合支持向量回归,将相似度量嵌入核函数,联合优化度量和训练支持向量回归。由于真实数据中可能存在噪声或者冗余特征,算法通过对度量矩阵的稀疏约束,降低噪声或冗余特征的影响,并通过度量的集成学习,提升算法泛化性能。该算法在标准数据集上得到了验证,并应用于机场噪声预测问题。4、相似特征嵌入的相似度量学习:从相似空间学习的角度提出一种新的单步式相似度算法,每个样本均用自身与代表样本间的相似度刻画特征,考虑到这一学习过程中,既需要好的度量函数,也要选择合适的代表样本使构造的相似特征具有判别性。为此,算法将相似度量与lasso联合学习,在学习相似度函数的同时选择有效的代表样本。且所学度量矩阵无半正定约束,相似函数更灵活。文中从理论上分析了算法泛化性能,并得到了实验验证。