勘误
马氏距离与其推导这篇博客中所提到的:
由于将数据集旋转后数据的各维度之间是不相关的
这句话的意思并不是说维度之间可以线性相关(我们知道坐标系一定是线性无关的)。
假设样本集有n个样本,其样本矩阵:
Xn×m
求出的协方差中的,非对角元素代表的是在该样本矩阵中,不同维度之间的影响。而马氏距离与其推导这篇博客是说协方差的非对角元素为0(各维度之间是不相关的)。
那么协方差的非对角元素为0本身代表什么意思?它是一种统计意义上的“不相关”:指的是对于给定的样本集,在该坐标系下,在这两个维度体现除了统计学意义上的无关性。
就是说样本集在指定坐标系下的某2个维度上体现出了无关性。
马氏距为什么能够很好地抵消不同维度的尺度差异?
这里要先明确几点:
- 两点之间的马氏距不会因为坐标系的旋转而发生变化
- 坐标系的旋转会导致样本的值和协方差发生变化
d2(X,Y)=[(X−Y)UT](UΣXUT)−1[(X−Y)UT]T
当坐标系旋转时,U就会发生变化 -> 样本的值和协方差发生变化
- 当坐标系旋转到某个位置,协方差会变为对角矩阵:
里面的
λ1...λm
反映了其他维度对本维度值的影响(为1就是不影响,否则就是影响)。
ΣX的作用等效于先进行坐标系旋转,在得到了对角化的ΣF后,再进行各维度尺度缩放(其对角线上的元素就是各个维度上的缩放比例)。