如果说从连续时间傅里叶变换到离散时间傅里叶变换是在应用时不得已而为之,那么从离散时间傅里叶变换到离散傅里叶变换则是一个飞跃。这意味着即使信号的长度有限,只要牺牲一些频域分辨率,也能做频域分析。当然一开始人们并没有意识到这句话的深层含义:时域和频域的分辨率可以做一折衷。所以小波分析不是一场革命,它只是用巧妙的构造践行了时频域分辨率折衷的思想。另一种时频分析方法——匹配追踪,却是实实在在的变革。为了理解这一点,不妨回忆一下第2篇的一句话:一切学问在实际应用时,都会遇到控制或利用自由度的问题。

先举两个通信方面的例子。在编码理论中,重复码之所以效率低下,是因为只利用了码元空间的一个自由度,所以只有分集增益。而非平凡完备码还利用了最小汉明距离和码率之间的折衷,带来了编码增益。

 

在数字调制理论中,相移键控只利用了星座的一个自由度,不如正交幅相调制(QAM)来得有效率。

 

而在时频分析中,离散时间傅里叶变换只对信号做了频域分析,离散傅里叶变换则同时对时域和频率进行了分析,是谓一大革命。

 

然而离散傅里叶变换及其衍生物——短时傅里叶变换的时频窗口较为固定,不甚适用于时频分析实践。小波变换实现了多分辨率时频分析,时频窗口宽度可以自行设定(受限于测不准原理),使用起来比较方便。

 

小波变换确实相当巧妙,但它本质上还是在用某种固定的模式分割时频平面。能不能让基函数去自动适应信号的时频特性呢?希尔伯特-黄变换提供了一种思路,即直接用信号自身的样条作为基。可惜HHT中的关键环节——经验模式分解正如其名,属于一种经验方法。而且由于样条函数的非线性,对EMD做深入分析非常困难。

匹配追踪(Matching Pursuit)则提供了另外一种思路:提供很多个候选基函数,利用优化方法来选出最适合原信号的一组。这里有一个问题:小波基是精心构造出来的正交基,这种拼凑出来的多个基函数会是正交基吗?确实不是,匹配追踪本身就是基于过完备原子库的方法。简而言之,虽然各个基函数(时频窗口)之间存在大量重叠,但选出的基函数之间并不一定存在重叠。

 

从上图中可以看出,各个原子(占四个格)之间存在重叠,使得分辨率能够达到一个格。而选出的原子却不一定出现重叠,上图中只有深灰色的几个部分有重叠。由此观之,匹配追踪能够自适应地选择原子,这等于说能够自适应地移动时频窗口,可以降低信号表示的误差。

如果匹配追踪方法的影响就到此为止,它还不能算带来了一场变革。的确,它的提出带来了更深远的影响——将信号分析和当时(至今都是)在统计学界最火热的稀疏表示联系起来,并成为压缩传感理论的算法实现基础之一。想要理解这一点,先要对匹配追踪方法有一点更具体的了解。匹配追踪最原始的形式如下:

  1. 把原信号f(t)赋给残差R(1);
  2. 从过完备原子库D中选出一个原子g,使g和残差的内积最大;
  3. 把g和残差的内积赋给第n项系数a(n);
  4. 从残差上减去a(n)*g;
  5. 回到第2步并重复,直到满足某种终止条件,比如残差的2-范数低于某个阈值threshold。

可以看出,这是一个典型的贪心算法,每次迭代中都选择当前和残差有最大相关的原子,这样不能保证选出来的原子之间互相正交,但实践中很有效。

很有趣的是,在统计学中有一个与此对应的、几乎完全相同的算法,称为向前逐步回归(Forward stepwise regression)。向前逐步回归的基本思想是对回归方程中的协变量根据回归的误差平方和逐个做显著性检验,通过检验的变量才加入方程。在统计学中这个方法本来是用来提高回归方程的可解释性(Interpretability)的,因为对结果产生影响的变量越少,问题的内在机理就越容易理解。

当计算机开始普及,统计学进入了高维大数据时代时,向前逐步回归算法的另外一个优势开始显现,即降维。由于臭名昭著的curse of dimensionality,传统最小二乘估计的“一致无偏最小方差”性质出现了不足:由于过分强调无偏性,最终拟合的均方误差(MSE)过大。而MSE又可以分解为方差和偏倚,引入适量的偏倚是有可能使方差大幅下降,从而减小MSE。因此无偏最小方差的估计量并不一定是MSE意义上最优的。在低维问题中UMVUE经常也是近似MSE最优的,因为在低维空间中样本相对比较密集。而在高维空间中,为了以同样的样本密度覆盖一块同样大小的区域,需要的样本数量以指数速度增长。于是对于高维问题,MSE中的方差成了起决定作用的一项。

样本太少怎么办?如果我们对问题没有更多的了解,这个问题实际上是无法解决的。很幸运的是,世界有着天然的规则之美。复杂系统中很多变量之间存在着千丝万缕的联系,它们不能割裂开来分析(有没有马哲的感觉……)。这样,系统的有效自由度就会低于协变量个数,而且常常是远低于协变量个数。换句话说,所谓的“高维问题”的本征维度没有看起来那么高,可以用某种变换把高维空间中的样本映射到低维空间中,这样就好做研究了。这一思想是统计学习理论的核心,前有Kolmogorov的最小描述长度(MDL)准则,后有Vapnik的VC维(为什么全是俄国人在搞?),都致力于说明“学习即压缩”这一道理。

回到向前逐步回归,我们现在可以看出它实际上是一种最朴素的降维手段:直接把和因变量相关性不强的维度截断掉,连旋转之类的变换都没有做。匹配追踪则和向前逐步回归有着极为相似的形式。从线性代数的角度看,这两种方法都是在求线性方程组的近似l0范数最小化解,即近似最稀疏解。求精确解的方法在统计学上叫最优子集法(Best subset),是一个NP的组合优化问题,没法用于高维的情况,“山中无老虎,猴子称大王”。

另一方面,搞压缩传感理论的那一帮人发现,如果已知要采样的信号在某种变换下可压缩,那么用少量几次非相干测量得到的一个欠采样信号,可以通过求最稀疏解来精确(或最优近似)恢复原信号。由于搞ADC的人和搞图像处理的人实在是太辛苦,这个发现一下就火了,连带着匹配追踪也被推到了台前。

稀疏表示的浪潮又使匹配追踪向前进了一步。先是正交匹配追踪(OMP),这一方法在每次迭代前先把所有剩下的原子对用过的原子做Schmidt正交化,保证基函数的正交性。

 

这样相当于每次迭代都在改变基函数,会牺牲可解释性,但在信号重建的精度方面改进很大。从统计学出发的人也不示弱,就算对信号的解释工作干不过专门搞时频分析的人,信号重建可是他们的主场。于是刚出炉的LASSO就被拿来做压缩传感的重建算法,贝叶斯学派也用基于Empirical Bayes的ARD先验来插一手。

总而言之,信号分析领域如今已经不是传统时频分析一家独大。我个人认为这一变化是机器学习领域数十年来迅猛发展造成的。信号分析说到底还是在和基函数玩,而机器学习领域的人花了很大功夫去研究自适应基的构造方式,对于信号恢复这种估计问题更是信手拈来。可以预见,这两个领域很可能会“执子之手,与子偕老”。