流形学习
从高维采样数据恢复低维流形结构
流形学习,全称流形学习方法(Manifold Learning),自2000年在著名的科学杂志《Science》被首次提出以来,已成为信息科学领域的研究热点。在理论和应用上,流形学习方法都具有重要的研究意义。假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。
分类
流形学习方法是模式识别中的基本方法,分为线性流形学习算法和非线性流形学习算法,非线性流形学习算法包括等距映射(Isomap),拉普拉斯特征映射(Laplacian eigenmaps,LE),局部线性嵌入(Locally-linear embedding,LLE)等。而线性方法则是对非线性方法的线性扩展,如主成分分析(Principal component analysis,PCA),多维尺度变换(Multidimensional scaling,MDS)等。
Isomap
Isomap由麻省理工学院计算机科学人工智能实验室的JoshTenenbaum教授于2000在Science杂志上提出。Isomap的主要目标是对于给定的高维流形,欲找到其对应的低维嵌入,使得高维流形上数据点间的近邻结构在低维嵌入中得以保持。Isomap以MDS(Multidimensional Scaling)为计算工具,创新之处在于计算高维流形上数据点间距离时,不是用传统的欧式距离,而是采用微分几何中的测地线距离(或称为曲线距离),并且找到了一种用实际输入数据估计其测地线距离的算法。(即图论中的最小路径逼近测地线距离)
Isomap的优点在于:
LE
LE(Laplacian eigenmaps)的基本思想是,用一个无向有权图描述一个流形,然后通过用图的嵌入(graph embedding)来找低维表示。简单来说,就是在保持图的局部邻接关系的情况下,将其图从高维空间中重新画在一个低维空间中(graph drawing)。
在至今为止的流形学习的典型方法中,LE速度最快,但是效果相对来说不理想。
LE的特点,就是如果出现离群值(outlier)情况下,其鲁棒性(robustness)十分理想。这个特点在其他流形学习方法中没有体现。
LLE
局部线性嵌入相关工作发表在Science (2000) 上,是非线性降维的里程碑。
LLE算法可以归结为三步:
PCA
主成分分析(PCA)被认为是一种特别成功的特征提取降维算法。它的原理是,利用对原来的变量进行线性组合而得到新的变量(主成分),这些变量之间的方差最大。因为数据原来的变量之间有可能差距不大,描述的内容差不多,故效率低下。换句话说,我们可能说了很多话,但是却在讲同一件事情。由于方差在数据中描述的变量之间的差距,故方差最大也就意味着新的变量之间有比较大的差距。这样,就可以以较高的效率描述数据
MDS
与PCA类似,多维尺度分析(MDS)的目的也是把观察的数据用较少的维数来表达。然而,MDS利用的是成对样本间相似性构建合适的低维空间,使得样本在此空间的距离和在高维空间中的样本间的相似性尽可能的保持一致。
MDS方法有5个关键的要素,分别为主体、客体、准则、准则权重、主体权重。具体定义为:
参考资料
最新修订时间:2023-12-07 14:48
目录
概述
分类
Isomap
参考资料