![机器学习:从公理到算法](https://wfqqreader-1252317822.image.myqcloud.com/cover/786/920786/b_920786.jpg)
5.4 局部线性嵌入
当数据具备某些非线性结构,如流形结构时,我们希望降维后的数据仍然保持这些结构。局部线性嵌入(locally linear embedding,LLE)给出了它的解决方案。LLE的目标是在数据降维后仍然保留原始高维数据的拓扑结构。这种拓扑结构表现为数据点的局部邻接关系。对于输入X,其类表示
由对象间的局部线性组合矩阵
给出。根据类紧致性准则,我们希望最小化如下目标函数
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00080.jpg?sign=1739339469-h1nQcPyDimJ0JsVM9kWebKysNNbppjLw-0-b4b39e08c599cb06e80bf09cc1ed4357)
其中N(k)指点xk的近邻集合。公式(5.17)表明每个点可表示成它近邻的一个线性组合,这种局部组合关系用系数矩阵W表示。根据类表示唯一公理,因此
。同时类紧致性准则要求,一个好的类输出Y需要满足如下目标函数:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00088.jpg?sign=1739339469-Lex6UhayNX0DEbvRYb7F3uyfEtqgSceR-0-efe3ede68160e2b804c76b02201f464b)
在式(5.18)中,LLE根据从原始数据获得局部系数矩阵W以求取数据的低维表示。LLE的核心思想即是通过求解式(5.17)和式(5.18)获得类表示矩阵,即组合系数矩阵W。以下给出LLE算法详细的求解过程。
在求解式(5.17)时,会进行如下约束
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00083.jpg?sign=1739339469-z52h4Rn2bgRceQVGHaxERAHjDcY0vmFf-0-4eb8d4de7cbd62c3a204fa583a811985)
该约束保证了W的平移不变性,即数据点经过某些线性变换时,W仍然有效。以下给出这一性质的简要说明。假定xk可由其近邻的线性组合表示,即。令向量t为某一平移量,对xk平移后,其重新构建的近邻关系为
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00084.jpg?sign=1739339469-NJQRxHMEdRObqPJAumK15n38s31JvW67-0-6718ea322adb990b923d2f2fee715a3f)
其中vkl为平移后的重构系数。于是有
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00085.jpg?sign=1739339469-uGv4ug3BMb3zQjBNJFEc6or69kXm0mwV-0-7699d03dacec0bfde5d2a9ddfe01d1cb)
平移不变性要求wkl=vkl,由此可得
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00086.jpg?sign=1739339469-IHZEcwMBwe33dRkrefvsutqANXuCBFzr-0-247a7f267797789213b8614e4082bcda)
由此可得。
式(5.19)中求所有点的重构误差的最小值可以分解成求每个点的最小重构误差,以保证整个误差最小。以下给出针对每个点的W的求解方法。给定问题
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00087.jpg?sign=1739339469-b6zJBhhOFMbzVgegzRqxjp5uKMHD9u5L-0-84d8e53b0d57f6d38b111038ead46849)
令Nk∈ℝp×K为xk的K个邻居构成的矩阵,同时令Xk=[xk|xk| … |xk] ∈ℝp×K,wk∈ℝK×1为系数向量,则式(5.23)可写成如下形式
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00092.jpg?sign=1739339469-TDrvp8PZ9fS1Hmw2lqLLMP9e3cFPnmRC-0-cda7722ed92b00e229412651cc2c5260)
其中Qk为xk的一个局部协方差矩阵。结合约束条件,有如下的拉格朗日方程
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00093.jpg?sign=1739339469-EE8j6VKB8FVyRR2ttMMxllOuKe2a7Cfq-0-63f14e83f5f6ac4a4df27b102c839507)
其中1∈ℝK×1为全1向量。针对wk求偏导并置0得
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00094.jpg?sign=1739339469-UkJqcK4ySjEPvFllXc1TsjmQwipt1G4a-0-320c3cd7000d8de7516b322d5e8444f8)
易得
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00095.jpg?sign=1739339469-bXpi7cG2A3pEfHDUxItkMuZ11FsqyOeD-0-672089634198be42b47638648eb52e01)
利用式(5.23)中的约束,得1Twk=λk1TQ−1k1=1,进而λk=(1TQ−1k1)−1,将其代入式(5.27)得
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00089.jpg?sign=1739339469-WFezDjEzYCITPn8CCuDjbeQzkAytgR3V-0-d4654b511fa6d9ab24093b900d9fa403)
根据上一步获得一系列的wkl,定义完整的W如下:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00090.jpg?sign=1739339469-pn4biFanJN6QbEoARDcy25WY4cvm0QY4-0-bb7227a8299fef4e7bcbd230a98df265)
下面求解数据的低维嵌入Y=[y1|y2| … |yN] ∈ℝd×N。我们希望数据被降维后仍然保持高维数据原始的局部拓扑结构,即W,因此用以下目标函数求解
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00091.jpg?sign=1739339469-LWdqInPKIX0vn5hswZrzK94MhwzcMa3y-0-de5b373894454c20b3ceae05213e4eb8)
其中I∈ℝd×d为单位矩阵,式(5.30)中的两个约束都是为了获得唯一有效解,第一个约束条件使得数据均值在坐标原点,由于当yi被平移固定值时,其仍为问题(5.30)的解,通过这一约束可以避免这些无效解。第二个约束条件通过令数据的协方差矩阵为一单位阵,从而避免了平凡解,并且使得嵌入空间中每一维的尺度相同。式(5.30)写成矩阵形式为
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00098.jpg?sign=1739339469-GKtAar1yldvqZgDzBU5MZhf9NEEIpUat-0-436e4283fb0f51d1d4b24a89a25400b4)
其中1∈ℝN并且
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00099.jpg?sign=1739339469-hI6z5WFIwhuQyolIh1IGAb2IwyC2qOfa-0-c9448e7cd9c2e2b28128097a7b531844)
其中M=(I−W)(I−W)。若降维到d维,则问题(5.31)的解为矩阵M的最小的d个特征值对应的特征向量。由于最小的特征值对应的特征向量几乎为0,因此通常取第2到第d+1个最小特征值对应的特征向量。