主流形学习及应用
【摘要】:流形学习是机器学习研究的一项重要领域,它能够发现高维数据中的内在低维结构,并把数据约减到一个非线性的流形空间上帮助人们分析和挖掘数据的实质,因此得到广泛的应用。通过主曲线和主曲面的方法挖掘数据中的潜在流形结构是流形学习中的一项重要技术,称之为主流形学习,本文就目前主流行学习中的理论和应用上的不足,即:1)如何恰当的度量数据点对之间的距离;2)如何利用数据的潜在流形结构来合理的划分和组织数据;3)如何利用数据的流形性质分析数据点的异常情况等等,我们主要提出了以下的理论与算法:
·提出一种基于黎曼距离度量的主曲线算法Principal Riemannian Curves (PRC),该算法根据数据的黎曼距离假设,参照数据的分布密度,学习到一条更加逼近数据真实分布的主曲线。
·首次提出一种非线性的空间划分方法Principal Curve Tree(PCTree),该算法能够依据数据的内在流形结构分割数据单元,从而获得更高的K近邻查找准确率,我们从理论上分析并证明了该划分方法取得了更好的覆盖率;
·提出一种基于流形的树形结构的异常检测方法。该方法通过少量的训练样本建立一棵随机投影树,它能够发现数据中存在的流形结构,以此结构为基础我们获得了一种快速的异常点区分方法。
除了理论方面的研究,将我们的方法应用到真实的环境包括半圆形轨道上的GPS数据,UCI机器学习数据集上都获得了满意的效果,从而验证了我们方法的准确性、可靠性以及高效性。