LDA降维库 ltsa降维

转载

jkfox 2024-05-22 19:23:55

前面写的PCA，LE，LDA，LLE都是以前就比较熟悉的东西，从这篇开始写的都是之前不熟悉的甚至都不知道名字的算法，然而都还很经典。疫情期间在家里看看原文，学习学习，既是算法总结又是读论文笔记。这篇来写LTSA局部切空间排列。本篇符号尽量与原文保持一致，与前面几篇有所不同。

主要思路

LTSA（Local Tangent Space Alignment）的基本思路是用样本点的近邻区域的切空间来表示局部几何结构，然后对局部切空间进行重新排列得到非线性流形的用自然参数刻画的低维表示，是经典的流形学习与降维算法。

假设一个 $LDA降维库 ltsa降维_样本集$ 维流形嵌于 $LDA降维库 ltsa降维_样本集_02$ 维空间中（ $LDA降维库 ltsa降维_映射函数_03$ ）， $LDA降维库 ltsa降维_样本集_02$ 维空间是一个包含噪声的高维空间。给定样本集合 $LDA降维库 ltsa降维_映射函数_05$ 分布于这个含噪声的 $LDA降维库 ltsa降维_样本集_02$ 维空间中，文章认为：
$LDA降维库 ltsa降维_样本集_07$

$LDA降维库 ltsa降维_映射函数_08$ 是 $LDA降维库 ltsa降维_最小化_09$ 的本征表示， $LDA降维库 ltsa降维_最小化_10$ 是一个映射函数， $LDA降维库 ltsa降维_样本集_11$ 表示噪声。

线性情况

先来看线性情况。线性时 $LDA降维库 ltsa降维_最小化_10$ 是一个投影矩阵：
$LDA降维库 ltsa降维_样本集_13$

$LDA降维库 ltsa降维_LDA降维库_14$ 表示常量参数，是个偏置项， $LDA降维库 ltsa降维_映射函数_15$ 是全为1的列向量。线性降维与线性流形学习的目标就是最小化重建误差：
$LDA降维库 ltsa降维_映射函数_16$

这是个 $LDA降维库 ltsa降维_映射函数_17$ 范数的形式，希望噪声能够最小。文章说，基于观察认为：

如果能从 $LDA降维库 ltsa降维_样本集_18$ 中移除 $LDA降维库 ltsa降维_样本集_18$ 的行均值，就可以使其范数更小，这要求 $LDA降维库 ltsa降维_映射函数_20$ 。其实就是对 $LDA降维库 ltsa降维_最小化_21$ 做中心化的意思。
然后希望上式最小化就等价于希望 $LDA降维库 ltsa降维_样本集_22$ 是最接近于 $LDA降维库 ltsa降维_样本集_23$ 的秩为 $LDA降维库 ltsa降维_样本集_24$ 的矩阵，这可以用 $LDA降维库 ltsa降维_样本集_23$ 的SVD分解来求解。这个确实如此，这是SVD分解的低秩近似性质。

SVD分解有的低秩近似性质：即给定秩为 $LDA降维库 ltsa降维_样本集_26$ 的矩阵 $LDA降维库 ltsa降维_样本集_27$ 并求出其SVD分解 $LDA降维库 ltsa降维_样本集_28$ ，欲求一个秩为 $LDA降维库 ltsa降维_最小化_29$ 的矩阵 $LDA降维库 ltsa降维_样本集_30$ ，并使得 $LDA降维库 ltsa降维_映射函数_31$ A$最接近（差的F范数最小）：
$LDA降维库 ltsa降维_LDA降维库_32$ 则 $LDA降维库 ltsa降维_样本集_30$ 可以通过仅保留 $LDA降维库 ltsa降维_样本集_27$ 的前 $LDA降维库 ltsa降维_LDA降维库_35$ 大奇异值得到。即 $LDA降维库 ltsa降维_LDA降维库_36$ 。

所以的话如果：
$LDA降维库 ltsa降维_LDA降维库_37$

则
$LDA降维库 ltsa降维_样本集_38$

$LDA降维库 ltsa降维_最小化_39$ 的最优解 $LDA降维库 ltsa降维_LDA降维库_40$ 。因此：
$LDA降维库 ltsa降维_样本集_41$

因为 $LDA降维库 ltsa降维_映射函数_42$ 是正交矩阵，其逆矩阵就是其对称矩阵。这其实就是PCA，只是用SVD分解和F范数来解，思路也不一样，而且这告诉我们PCA降完维后的结果就是 $LDA降维库 ltsa降维_LDA降维库_43$ .

继续读文章。 $LDA降维库 ltsa降维_最小化_10$ 函数并不是唯一的，因为还可以被重新参数化。如果有 $LDA降维库 ltsa降维_最小化_45$ 满足 $LDA降维库 ltsa降维_样本集_46$ ，则 $LDA降维库 ltsa降维_最小化_39$ ^*应该变成 $LDA降维库 ltsa降维_最小化_48$ 。什么意思呢，意思就是：
$LDA降维库 ltsa降维_LDA降维库_49$

另外如果我们限制 $LDA降维库 ltsa降维_最小化_50$ 是标准正交的，即 $LDA降维库 ltsa降维_映射函数_51$ ，则应取 $LDA降维库 ltsa降维_映射函数_52$ ，而且 $LDA降维库 ltsa降维_最小化_10$ 应变为：
$LDA降维库 ltsa降维_样本集_54$

这两条说的都是PCA的一些变化了。大致如此。妙的地方就在于，如果这样处理PCA的话，不需要 $LDA降维库 ltsa降维_最小化_10$ 函数的参与就能完成降维了，与我们之前写的那篇PCA不同。

非线性情况

非线性的情况更复杂。一般而言，全局的非线性结构来自于局部的线性分析和排列。然后引出LTSA。对于一个给定的样本点，LTSA使用其近邻区域来构建局部切空间来表征局部几何结构，局部切空间提供了非线性流形的局部几何结构的低维线性估计，通过局部切空间来保护近邻区域中的样本点的局部坐标。然后局部切坐标通过不同的局部仿射转换在低维空间重新排列，以获得更好的全局坐标系统。

仍然是假设 $LDA降维库 ltsa降维_样本集$ 维流形通过未知函数 $LDA降维库 ltsa降维_最小化_10$ 嵌于 $LDA降维库 ltsa降维_样本集_02$ 维空间中， $LDA降维库 ltsa降维_映射函数_03$ 。给定 $LDA降维库 ltsa降维_样本集_60$ 个从无噪声模型中得来的 $LDA降维库 ltsa降维_样本集_02$ 维样本 $LDA降维库 ltsa降维_映射函数_05$ ，有
$LDA降维库 ltsa降维_映射函数_63$

$LDA降维库 ltsa降维_最小化_64$ 是 $LDA降维库 ltsa降维_最小化_09$ 降完维后的结果。非线性降维的目标就是从 $LDA降维库 ltsa降维_最小化_66$ 对应的 $LDA降维库 ltsa降维_最小化_09$ 来重构 $LDA降维库 ltsa降维_最小化_66$ 而不显式地构建 $LDA降维库 ltsa降维_最小化_10$ 函数。假设 $LDA降维库 ltsa降维_最小化_10$ 足够光滑，在一个给定的 $LDA降维库 ltsa降维_映射函数_71$ 处做Taylor展开：
$LDA降维库 ltsa降维_LDA降维库_72$

这里 $LDA降维库 ltsa降维_最小化_73$ 是 $LDA降维库 ltsa降维_最小化_10$ 在 $LDA降维库 ltsa降维_映射函数_71$ 处的Jacobi矩阵：
$LDA降维库 ltsa降维_样本集_76$

$LDA降维库 ltsa降维_最小化_10$ 在 $LDA降维库 ltsa降维_映射函数_71$ 处的切空间 $LDA降维库 ltsa降维_最小化_79$ 是由 $LDA降维库 ltsa降维_样本集_80$ 的 $LDA降维库 ltsa降维_样本集$ 个列向量做基底的生成空间，维度最高为 $LDA降维库 ltsa降维_样本集$ ， $LDA降维库 ltsa降维_样本集_83$ 。向量 $LDA降维库 ltsa降维_映射函数_84$ 是 $LDA降维库 ltsa降维_映射函数_85$ 在仿射空间 $LDA降维库 ltsa降维_样本集_86$ 的坐标（这一句我属实没懂）。因为不知道 $LDA降维库 ltsa降维_最小化_10$ ，所以 $LDA降维库 ltsa降维_样本集_80$ 也没法求。如果 $LDA降维库 ltsa降维_样本集_89$ 是 $LDA降维库 ltsa降维_最小化_79$ 的一个标准正交基矩阵，如果基于 $LDA降维库 ltsa降维_样本集_89$ 可以知道 $LDA降维库 ltsa降维_样本集_80$ ，可以写作：
$LDA降维库 ltsa降维_最小化_93$

然后
$LDA降维库 ltsa降维_最小化_94$

从 $LDA降维库 ltsa降维_映射函数_71$ 到 $LDA降维库 ltsa降维_LDA降维库_96$ 的映射表示局部仿射变换，这个仿射变换同样是未知的，因为 $LDA降维库 ltsa降维_最小化_10$ 未知。然而向量 $LDA降维库 ltsa降维_LDA降维库_96$ 有一个近似值 $LDA降维库 ltsa降维_LDA降维库_99$ ，其可以正交地将 $LDA降维库 ltsa降维_LDA降维库_100$ 投影到 $LDA降维库 ltsa降维_最小化_79$ ：
$LDA降维库 ltsa降维_LDA降维库_102$

假设 $LDA降维库 ltsa降维_最小化_103$ 在每一个 $LDA降维库 ltsa降维_映射函数_71$ 处都是已知的，忽略二阶项，则全局坐标 $LDA降维库 ltsa降维_映射函数_71$ 应满足：
$LDA降维库 ltsa降维_映射函数_106$

$LDA降维库 ltsa降维_最小化_107$ 是 $LDA降维库 ltsa降维_映射函数_71$ 的近邻区域的定义。因此，一种自然的优化目标就是寻找合适的 $LDA降维库 ltsa降维_映射函数_71$ 和 $LDA降维库 ltsa降维_最小化_110$ 以最小化以下误差函数：
$LDA降维库 ltsa降维_映射函数_111$

这表示的是降维问题的非线性排列方法。

线性排列方法可以有如下思路。如果 $LDA降维库 ltsa降维_样本集_80$ 是列满秩的，矩阵 $LDA降维库 ltsa降维_最小化_110$ 就应该是非奇异的并且：
$LDA降维库 ltsa降维_最小化_114$

这时候应该寻找全局坐标 $LDA降维库 ltsa降维_映射函数_71$ 和局部仿射变换 $LDA降维库 ltsa降维_样本集_116$ 来最小化下式：
$LDA降维库 ltsa降维_样本集_117$

如果不是列满秩，那就太复杂了，不讨论。

局部切空间排列LTSA

给定具有潜在非线性流形结构的包含噪声的样本集 $LDA降维库 ltsa降维_LDA降维库_118$ ：
$LDA降维库 ltsa降维_样本集_07$

令 $LDA降维库 ltsa降维_样本集_120$ 是 $LDA降维库 ltsa降维_最小化_09$ 用欧氏距离度量下的 $LDA降维库 ltsa降维_样本集_122$ 近邻（包含 $LDA降维库 ltsa降维_最小化_09$ 自身）。为 $LDA降维库 ltsa降维_LDA降维库_124$ 中的样本计算最佳的 $LDA降维库 ltsa降维_样本集$ 维近似仿射空间：
$LDA降维库 ltsa降维_映射函数_126$

这里 $LDA降维库 ltsa降维_映射函数_127$ 是 $LDA降维库 ltsa降维_样本集$ 列的标准正交矩阵， $LDA降维库 ltsa降维_映射函数_129$ 。注意，这里我写 $LDA降维库 ltsa降维_映射函数_17$ 范数平方的地方原文写的是二范数的平方，我觉得不太对劲，所以写成了 $LDA降维库 ltsa降维_映射函数_17$ 范数。
这个问题在限行情况那部分已经解过了，最优的 $LDA降维库 ltsa降维_最小化_132$ 值应取 $LDA降维库 ltsa降维_样本集_133$ ，最优的 $LDA降维库 ltsa降维_映射函数_127$ 值 $LDA降维库 ltsa降维_映射函数_135$ 应该取 $LDA降维库 ltsa降维_LDA降维库_136$ （其实就是对 $LDA降维库 ltsa降维_LDA降维库_124$ 做了中心化的结果）前 $LDA降维库 ltsa降维_样本集$ 大的奇异值对应的左奇异向量。然后 $LDA降维库 ltsa降维_映射函数_139$ 应该由 $LDA降维库 ltsa降维_样本集_140$ 组成，且：
$LDA降维库 ltsa降维_样本集_141$

意思就是在 $LDA降维库 ltsa降维_最小化_09$ 的包含自身的 $LDA降维库 ltsa降维_样本集_122$ 个近邻组成的 $LDA降维库 ltsa降维_LDA降维库_124$ 范围内做了个PCA，只是不降维，维度仍为 $LDA降维库 ltsa降维_样本集_02$ ，做完PCA后的 $LDA降维库 ltsa降维_LDA降维库_124$ 为 $LDA降维库 ltsa降维_样本集_140$ ，单个样本为 $LDA降维库 ltsa降维_最小化_148$ .

然后有：
$LDA降维库 ltsa降维_最小化_149$

这里的 $LDA降维库 ltsa降维_映射函数_150$ 就是重构误差。 $LDA降维库 ltsa降维_最小化_148$ 可以表征局部结构，现在基于 $LDA降维库 ltsa降维_最小化_148$ 来得到 $LDA降维库 ltsa降维_映射函数_153$ . LTSA希望 $LDA降维库 ltsa降维_最小化_154$ 满足如下形式：
$LDA降维库 ltsa降维_样本集_155$

其中 $LDA降维库 ltsa降维_映射函数_156$ 是 $LDA降维库 ltsa降维_样本集_122$ 个 $LDA降维库 ltsa降维_最小化_154$ 的均值， $LDA降维库 ltsa降维_映射函数_159$ 是未知的仿射变换，起到一个排列的作用。上式的矩阵形式表示为：
$LDA降维库 ltsa降维_样本集_160$

$LDA降维库 ltsa降维_LDA降维库_161$ 。重构残差 $LDA降维库 ltsa降维_映射函数_162$ 为：
$LDA降维库 ltsa降维_映射函数_163$

为了在低维空间中保护尽可能多的局部几何结构，LTSA希望降维后得到的样本表示 $LDA降维库 ltsa降维_最小化_66$ 以及局部仿射变换 $LDA降维库 ltsa降维_映射函数_159$ ，可以最小化重构残差 $LDA降维库 ltsa降维_最小化_166$ ：
$LDA降维库 ltsa降维_最小化_167$

显然，能够最小化误差 $LDA降维库 ltsa降维_最小化_168$ 的排列矩阵 $LDA降维库 ltsa降维_映射函数_159$ 的最优解应为：
$LDA降维库 ltsa降维_最小化_170$

这里的 $LDA降维库 ltsa降维_LDA降维库_171$ 是 $LDA降维库 ltsa降维_样本集_140$ 的Moor-Penrose广义逆矩阵。 $LDA降维库 ltsa降维_样本集_173$ ，令 $LDA降维库 ltsa降维_样本集_174$ 为满足 $LDA降维库 ltsa降维_LDA降维库_175$ 的0-1选择矩阵（比方说要筛选第1，3个样本， $LDA降维库 ltsa降维_样本集_174$ 的第1行的第1个数就为1，第2列的第3个数就为1，其余位置全为0），注意前面定义了 $LDA降维库 ltsa降维_LDA降维库_177$ . 现在需要寻找 $LDA降维库 ltsa降维_最小化_50$ 使得总体所有样本的重构误差最小化：
$LDA降维库 ltsa降维_样本集_179$

其中 $LDA降维库 ltsa降维_样本集_180$ ， $LDA降维库 ltsa降维_最小化_181$ 且：
$LDA降维库 ltsa降维_映射函数_182$

为了使得 $LDA降维库 ltsa降维_最小化_50$ 有唯一解，LTSA限制 $LDA降维库 ltsa降维_样本集_184$ ， $LDA降维库 ltsa降维_样本集_185$ 是 $LDA降维库 ltsa降维_样本集$ 维的单位矩阵。

求解

现在基本搞明白了，给定 $LDA降维库 ltsa降维_样本集_187$ ，LTSA先给每个样本找欧氏距离度量下的 $LDA降维库 ltsa降维_样本集_122$ 个近邻（包含自身），为每个样本 $LDA降维库 ltsa降维_最小化_09$ 构成一个包含自身的近邻区域 $LDA降维库 ltsa降维_LDA降维库_124$ ，然后在 $LDA降维库 ltsa降维_LDA降维库_124$ 这个区域内做PCA但却不降维，然后 $LDA降维库 ltsa降维_LDA降维库_124$ 通过PCA变成了 $LDA降维库 ltsa降维_样本集_140$ ，其中的 $LDA降维库 ltsa降维_最小化_194$ 变成了 $LDA降维库 ltsa降维_最小化_148$ 。然后又认为降维的结果 $LDA降维库 ltsa降维_LDA降维库_196$ 与 $LDA降维库 ltsa降维_LDA降维库_124$ 之间有线性关系，希望二者之间的误差最小，仿射关系 $LDA降维库 ltsa降维_映射函数_159$ 被 $LDA降维库 ltsa降维_LDA降维库_196$ 表示了，残差 $LDA降维库 ltsa降维_映射函数_162$ 也用 $LDA降维库 ltsa降维_LDA降维库_196$ 表示了，所以变成了一个非线性的方法。局部PCA就是所谓的局部切空间，后面这个非线性降维就是所谓的排列，最终变成如下形式的问题：

$LDA降维库 ltsa降维_样本集_202$

求解思路也很清晰，F范数的平方化为向量二范数的平方之和即可。这里重新定义 $LDA降维库 ltsa降维_LDA降维库_196$ 为 $LDA降维库 ltsa降维_最小化_50$ 的第 $LDA降维库 ltsa降维_最小化_205$ 行，与上一部分有所不同，则：
$LDA降维库 ltsa降维_最小化_206$

然后用经典的Lagrangian乘子法：
$LDA降维库 ltsa降维_最小化_207$

如同之前几篇博客，这里的 $LDA降维库 ltsa降维_样本集_208$ 为对角矩阵。然后求导并令导数为0：
$LDA降维库 ltsa降维_最小化_209$

然后 $LDA降维库 ltsa降维_样本集_210$ 就是告诉我们， $LDA降维库 ltsa降维_最小化_211$ 的每一列，即 $LDA降维库 ltsa降维_最小化_50$ 的每一行 $LDA降维库 ltsa降维_LDA降维库_196$ 都是 $LDA降维库 ltsa降维_最小化_214$ 的特征向量，对应的特征值分布在 $LDA降维库 ltsa降维_样本集_208$ 的对角线的对应位置上。因为是个必要条件，再代回去：
$LDA降维库 ltsa降维_LDA降维库_216$

这告诉我们，原始最小化就等价于 $LDA降维库 ltsa降维_LDA降维库_217$ 最小化，因此要选 $LDA降维库 ltsa降维_最小化_214$ 最小的前 $LDA降维库 ltsa降维_样本集$ 个特征值对应的特征向量来构成 $LDA降维库 ltsa降维_最小化_50$ .

这里还有一个问题，就是全1列向量 $LDA降维库 ltsa降维_映射函数_15$ 也是 $LDA降维库 ltsa降维_最小化_214$ 的特征向量。首先 $LDA降维库 ltsa降维_样本集_223$ 的每一列只有一个数字是1，其余都为0，因此 $LDA降维库 ltsa降维_最小化_224$ .
$LDA降维库 ltsa降维_LDA降维库_225$

然后根据前面定义的： $LDA降维库 ltsa降维_映射函数_226$ ：
$LDA降维库 ltsa降维_LDA降维库_227$

因此
$LDA降维库 ltsa降维_最小化_228$

即无论对什么样的 $LDA降维库 ltsa降维_样本集_187$ ， $LDA降维库 ltsa降维_最小化_214$ 都有一个特征值为0，对应的特征向量为 $LDA降维库 ltsa降维_映射函数_15$ ，这显然不是我们想要的，因此要选 $LDA降维库 ltsa降维_最小化_214$ 前 $LDA降维库 ltsa降维_样本集$ 小的非0特征值对应的特征向量构成 $LDA降维库 ltsa降维_最小化_50$ 。

到这里其实LTSA的定义和求解就结束了，但是论文还没有结束，还讨论了很多误差分析之类的东西，我目前并不感兴趣，也就不看了写了。

关于其他

根据前面讨论非线性情况时候得到的结论：
$LDA降维库 ltsa降维_最小化_235$

可知，如果去掉二阶项，则有：
$LDA降维库 ltsa降维_最小化_236$

0-1选择矩阵 $LDA降维库 ltsa降维_映射函数_237$ 的定义和前面一样，我们希望寻找合适的 $LDA降维库 ltsa降维_最小化_238$ 使得二者更接近：
$LDA降维库 ltsa降维_样本集_239$

其中 $LDA降维库 ltsa降维_样本集_240$ . 这个问题可以用交替最小二乘法来解：固定 $LDA降维库 ltsa降维_样本集_241$ ，通过调节 $LDA降维库 ltsa降维_最小化_50$ 使得 $LDA降维库 ltsa降维_最小化_243$ 最小；然后固定 $LDA降维库 ltsa降维_最小化_50$ ，通过调节 $LDA降维库 ltsa降维_样本集_241$ 使 $LDA降维库 ltsa降维_最小化_243$ 最小。 $LDA降维库 ltsa降维_最小化_50$ 的初值可以取LTSA解出来的 $LDA降维库 ltsa降维_最小化_50$ 。这是另一篇文章的内容。

另一方面，公式 $LDA降维库 ltsa降维_最小化_249$ 约束 $LDA降维库 ltsa降维_映射函数_250$ 是为了让该问题“well-posed”，“适定”。因为如果取 $LDA降维库 ltsa降维_LDA降维库_251$ 都为0也有更小的解，但是这不是我们想要的。而且 $LDA降维库 ltsa降维_映射函数_250$ 这个约束是众多可以避免这个问题的约束之一。