勘误

​​马氏距离与其推导​​这篇博客中所提到的:

由于将数据集旋转后数据的各维度之间是不相关的

这句话的意思并不是说维度之间可以线性相关(我们知道坐标系一定是线性无关的)。
假设样本集有n个样本,其样本矩阵:


Xn×m

求出的协方差中的,非对角元素代表的是在该样本矩阵中,不同维度之间的影响。而​​马氏距离与其推导​​这篇博客是说协方差的非对角元素为0(各维度之间是不相关的)。
那么协方差的非对角元素为0本身代表什么意思?它是一种统计意义上的“不相关”:指的是对于给定的样本集,在该坐标系下,在这两个维度体现除了统计学意义上的无关性。

就是说样本集在指定坐标系下的某2个维度上体现出了无关性。

马氏距为什么能够很好地抵消不同维度的尺度差异?

这里要先明确几点:

  • 两点之间的马氏距不会因为坐标系的旋转而发生变化
  • 坐标系的旋转会导致样本的值和协方差发生变化


d2(X,Y)=[(X−Y)UT](UΣXUT)−1[(X−Y)UT]T

当坐标系旋转时,U就会发生变化 -> 样本的值和协方差发生变化


  • 当坐标系旋转到某个位置,协方差会变为对角矩阵:
  • 马氏距笔记_协方差

里面的


λ1...λm


反映了其他维度对本维度值的影响(为1就是不影响,否则就是影响)。

ΣX的作用等效于先进行坐标系旋转,在得到了对角化的ΣF后,再进行各维度尺度缩放(其对角线上的元素就是各个维度上的缩放比例)。