流形学习,全称流形
学习方法(Manifold Learning),自2000年在著名的
科学杂志《Science》被首次提出以来,已成为
信息科学领域的研究热点。在理论和应用上,流形学习方法都具有重要的研究意义。假设数据是
均匀采样于一个高维
欧氏空间中的低维流形,流形学习就是从高维
采样数据中恢复低维流形结构,即找到
高维空间中的低维流形,并求出相应的
嵌入映射,以实现
维数约简或者
数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。
流形学习方法是
模式识别中的基本方法,分为
线性流形学习算法和
非线性流形学习算法,非线性流形学习算法包括
等距映射(Isomap),拉普拉斯
特征映射(Laplacian eigenmaps,LE),局部线性嵌入(Locally-linear embedding,LLE)等。而
线性方法则是对
非线性方法的线性扩展,如主成分分析(Principal component analysis,PCA),多维尺度变换(Multidimensional scaling,MDS)等。
Isomap由
麻省理工学院计算机科学与
人工智能实验室的JoshTenenbaum教授于2000在Science杂志上提出。Isomap的主要目标是对于给定的高维流形,欲找到其对应的低维嵌入,使得高维流形上数据点间的近邻结构在低维嵌入中得以保持。Isomap以MDS(Multidimensional Scaling)为
计算工具,创新之处在于计算高维流形上数据点间距离时,不是用传统的
欧式距离,而是采用
微分几何中的
测地线距离(或称为曲线距离),并且找到了一种用实际
输入数据估计其测地线距离的算法。(即图论中的最小路径逼近测地线距离)
LE(Laplacian eigenmaps)的基本思想是,用一个无向有权图描述一个
流形,然后通过用图的嵌入(graph embedding)来找低维表示。简单来说,就是在保持图的局部邻接关系的情况下,将其图从
高维空间中重新画在一个低维空间中(graph drawing)。
LE的特点,就是如果出现
离群值(outlier)情况下,其
鲁棒性(robustness)十分理想。这个特点在其他流形学习方法中没有体现。
主成分分析(PCA)被认为是一种特别成功的
特征提取和
降维算法。它的原理是,利用对原来的变量进行线性组合而得到新的变量(
主成分),这些变量之间的方差最大。因为数据原来的变量之间有可能差距不大,描述的内容差不多,故效率低下。换句话说,我们可能说了很多话,但是却在讲同一件事情。由于方差在数据中描述的变量之间的差距,故方差最大也就意味着新的变量之间有比较大的差距。这样,就可以以较高的效率
描述数据。
与PCA类似,多维尺度分析(
MDS)的目的也是把观察的数据用较少的
维数来表达。然而,MDS利用的是成对样本间
相似性构建合适的低维空间,使得样本在此空间的距离和在高维空间中的样本间的相似性尽可能的保持一致。