梯度与法向量的关系
求曲面$f(x^{(1)},...,x^{(n)})=0$在$(x^{(1)}_0,...,x^{(n)}_0)$处的法向量(有$f(x^{(1)}_0,...,x^{(n)}_0)=0$),实际上就是求$z = f(x^{(1)},...,x^{(n)})$在$(x^{(1)}_0,...,x^{(n)}_0)$处的梯度。而显式函数的梯度通常是很好求的,只要求偏导数即可。
这是因为,原本的低维函数$f(x^{(1)},...,x^{(n)})=0$,实际上就是拓展后的高维函数$z = f(x^{(1)},...,x^{(n)})$在$z=0$处的等高线,而与等高线垂直也就是增长最快的方向,就是它的梯度了。
另外,由于梯度指向的是函数增大的方向,所以这样求出的法向量方向指向的是$f(x^{(1)},...,x^{(n)})>0$的区域。
求和与乘积
$\sum\limits_i^n a_i \sum\limits_j^m b_j = \sum\limits_i^n\sum\limits_j^m a_ib_j$,这是因为:
$(a_1+...+a_n)(b_1+...+b_m) = [a_1(b_1+...+b_m)+...+a_n(b_1+...+b_m)]=(a_1b_1+...+a_nb_m) $
线代内积
内积$xy$的实际上就是$x$在$y$方向的轴上的坐标,如果$y$是单位向量的话。
对称矩阵不一定半正定
对称矩阵$A$一定能分解为某个矩阵与其转置的乘积:
$A = BB^T$
但因为$B$不一定是实数矩阵,如:
$ \left[ \begin{matrix} -1&0 \\ 0& 1\\ \end{matrix} \right]=\left[ \begin{matrix} i&0 \\ 0& 1\\ \end{matrix} \right]\cdot \left[ \begin{matrix} i&0 \\ 0& 1\\ \end{matrix} \right]$
所以不能由
$x^TAx=x^TBB^Tx=(B^Tx)^TB^Tx\ge0$
得出对称矩阵一定半正定。而如果对称矩阵由实数矩阵与其转置的乘积定义,就能得到该对称矩阵半正定,比如协方差矩阵:
$\Sigma = (X-\mu)(X-\mu)^T\succeq0$
(划重点)格拉姆矩阵
前前后后看了好多遍,从PCA计算协方差矩阵,到SVM正定核的判断,再到风格迁移中的AdaIN,都用到了格拉姆矩阵。每次都要找资料再看一遍定义,而看别人写的博客效率总是没有自己写的高的。现在将它记录下来,以求忘得更慢一些,至少能在忘记的时候快速回忆起来。
对于$n$个$m$维列向量构成的矩阵$X = [x_1,x_2,...,x_n]$,这组列向量的格拉姆矩阵定义为:
$G = X^TX= \left[ \begin{matrix} x_1^Tx_1&x_1^Tx_2&...&x_1^Tx_n\\ x_2^Tx_1&x_2^Tx_2&...&x_2^Tx_n\\ \vdots&\vdots&\ddots&\vdots\\ x_n^Tx_1&x_n^Tx_2&...&x_n^Tx_n\\ \end{matrix} \right] $
实际上就是将这组向量的所有内积组合成一个矩阵。当然,还可以对它进行拓展,比如,对于一组矩阵,它们对应的格拉姆矩阵上的元素值就是两两矩阵按元素进行的乘积和。还有其它的拓展方式很多,我们可以大胆想象。
格拉姆矩阵通常用来表示各个向量之间的相关性,为了增强可比性,在求之前我们可以先对它们进行预处理,如标准化——也就是减去均值除以标准差,或者规范化——也就是除以范数。
当然,因为各行各列都能表达某个向量与其它所有向量之间的相关性,所以不进行上述预处理也是可以获取“相对来说的”相关性的。比如样本协方差矩阵,就是随机变量减去均值后,求格拉姆矩阵,再除以样本数。它没有除以标准差,这是因为协方差矩阵除了要表达各个随机变量之间的相关性外,还要表达随机变量的方差。而当我们对随机变量减去均值,再除以标准差,然后再计算这个“协方差矩阵”时,我们会发现它成了相关系数矩阵,而相关系数矩阵就仅仅表达各个随机变量之间的相关性了。
任意实半正定矩阵一定能表示为两个实矩阵的乘积
对于任意$n$阶实半正定矩阵$M$,因为它实对称,所以可以正交对角化:
$M = Q\Lambda Q^T$
其中$\Lambda$为$M$所有特征值$\lambda_i$排列成的斜对角矩阵。又因为它半正定,有$\lambda_i\ge 0$,所以可以将$\Lambda$表示为:
$\Lambda = \Lambda^{1/2}\Lambda^{1/2} $
$\Lambda^{1/2} = \text{diag}(\sqrt{\lambda_1},\sqrt{\lambda_2},...,\sqrt{\lambda_n})$
于是有:
$\begin{aligned} M &= Q\Lambda Q^T\\ &= Q\Lambda^{0.5}\Lambda^{0.5} Q^T\\ &= (\Lambda^{0.5}Q^T)^T\Lambda^{0.5} Q^T \\ &=A^TA \end{aligned}$
概率论联合分布不同而边缘分布相同的例子
以二维正态分布为例。为了方便计算,定义两个方向的随机变量方差与均值都为1和0。而协方差可变,对应着可变的相关系数,从而对应着不同的联合分布。联合概率密度如下:
\begin{equation*} \begin{aligned} p(x,y) = \frac{1}{2\pi \sqrt{1-\rho^2}}\exp\left({\frac{x^2-2\rho xy + y^2}{-2(1-\rho^2)}}\right) \end{aligned} \end{equation*}
下面求$y$的边缘分布。首先进行配方:
\begin{equation*} \begin{aligned} p(y) &= \int\limits_R \frac{1}{2\pi \sqrt{1-\rho^2}}\exp\left(\frac{x^2-2\rho xy + y^2}{-2(1-\rho^2)}\right) \text{d} x\\ &= \int\limits_R \frac{1}{2\pi \sqrt{1-\rho^2}}\exp\left(\frac{(x-\rho y)^2+(1-\rho^2)y^2}{-2(1-\rho^2)}\right) \text{d} x\\ &= \int\limits_R \frac{1}{2\pi \sqrt{1-\rho^2}}\exp\left(-\frac{(x-\rho y)^2}{2(1-\rho^2)} - \frac{y^2}{2}\right) \text{d} x\\ \end{aligned} \end{equation*}
然后换元,令
\begin{equation*} \begin{aligned} v = \frac{x-\rho y}{\sqrt{1-\rho^2}} \end{aligned} \end{equation*}
然后积分得:
\begin{equation} \begin{aligned} p(y) &= \int\limits_R \frac{1}{2\pi \sqrt{1-\rho^2}}\exp\left( -\frac{v^2+y^2}{2}\right) \text{d} \left(\sqrt{1-\rho^2}v+\rho y\right)\\ &= \int\limits_R \frac{1}{2\pi}\exp\left( -\frac{v^2+y^2}{2}\right) \text{d} v\\ &= \frac{1}{\sqrt{2\pi}}\exp\left( -\frac{y^2}{2}\right) \int\limits_R \frac{1}{\sqrt{2\pi}}\exp\left( -\frac{v^2}{2}\right) \text{d} v\\ &= \frac{1}{\sqrt{2\pi}}\exp\left( -\frac{y^2}{2}\right) \\ \end{aligned} \end{equation}
获得的是标准正态分布。可以看出,边缘分布$p(y)$与联合分布的相关系数$\rho$并无关系,也例证了不同的联合分布可以有相同的边缘分布。