运动补偿MC
通过先前的局部图像来预测、补偿当前的局部图像,它是减少帧序列冗余信息的有效方法,也是一种描述相邻帧(在编码关系上相邻) 差别的方法,具体来说是描述前面一帧的每个小块怎样移动到当前帧中的某个位置去,包括全局运动补偿和分块运动补偿两类。
(1)全局运动补偿
全局运动模型基本上就是反映摄像机的各种运动,包括平移,旋转,变焦等等,特别适合对没有运动物体的静止场景的编码。
优点:仅使用少量参数对全局运行进行描述;不对帧进行分区编码,避免了分区造成的块效应;在时间方向的一条直线的点如果在空间方向具有相等的间隔,就对应了在实际空间中连续移动的点。
缺点:不应用于有运动物体的场景。
(2)分块运动补偿
每帧被分为若干像素块 (在大多数视频编码标准,如MPEG中,是分为16x16的像素块)。从参考帧的某个位置的等大小的块对当前块进行预测,预测的过程中只有平移,平移的大小被称为运动矢量。对分块运动补偿来说,运动矢量是模型的必要参数,必须一起编码加入码流中。由于运动矢量之间并不独立(例如属于同一个运动物体的相邻两块通常运动的相关性很大),通常使用差分编码来降低码率,即只对差分部分进行编码。使用熵编码对运动矢量的成分进行编码可以进一步消除运动矢量的统计冗余。
运动矢量的值可以是非整数的,此时的运动补偿被称为亚像素精度的运动补偿。这是通过对参考帧像素值进行亚像素级插值,而后进行运动补偿做到的。最简单的亚像素精度运动补偿使用半像素精度,也有使用1/4和1/8像素精度的运动补偿算法。更高的亚像素精度可以提高运动补偿的精确度,但大量的插值操作也大大增加了计算复杂度。
缺点:在块之间引入的非连续性,通常称为块效应。当块效应严重时,解码图像看起来会有像马赛克一样的效果,严重影响视觉质量;当高频分量较大时,会引起振铃效应。
运动估计ME
将活动图像分为若干块或宏块,并设法搜索出每个块或宏块在邻近帧图像中的位置,并得出两者空间位置的相对偏移量,即运动矢量MV,得到运动矢量的过程即为运动估计,其研究的内容就是如何加速有效地获得足够精确的mv,并且把前一帧所得的运动信息通过运动补偿来进行变换,量化编码,最后输出。
运动估计方法主要有像素递归法和块匹配法两大类,前者复杂度很高,实际应用较少,后者则在H.263和MPEG中广泛采用。
块匹配法
对于包含多个运动物体的景物,实际中普遍采用的方法是把一个图像帧分成多个块,使得在每个区域中的运动可以很好地用一个参数化模型表征,这被称为块匹配法,即将图像分成若干个n×n 块(典型值:16×16 宏块) ,为每一个块寻找一个运动矢量 MV,并进行运动补偿预测编码。每一个帧间宏块或块都是根据先前已编码的数据预测出的,根据已编码的宏块、块预测的值和当前宏块、块作差值,结果被压缩传送给解码器,与解码器所需要的其他信息如运动矢量、预测模型等一起用来重复预测过程。每个分割区域都有其对应的运动矢量,并必须对运动矢量以及块的选择方式进行编码和传输。在细节比较多的帧中如果选择较大的块尺寸,意味着用于表明运动矢量和分割区域类型的比特数会少些,但是运动压缩的冗余度要多一些;如果选择小一点的块尺寸,那么运动压缩后冗余度要少一些,但是所需比特数要比较多。因此必须要权衡块尺寸选择上对压缩效果的影响,一般对于细节比较少、比较平坦的区域选择块尺寸大一些,对于图像中细节比较多的区域选择块尺寸小一些。宏块中的每个色度块(Cb 和 Cr) 尺寸宽高都是亮度块的一半,色度块的分割方法和亮度块同样,只是尺寸上宽高都是亮度块一半(如亮度块是 8×16 块尺寸大小,那么色度块就是 4×8,如果亮度块尺寸为 8×4,那么色度块便是 4×2 等等)。每个色度块的运动矢量的水平和垂直坐标都是亮度块的一半。
在块匹配法中,重点研究块匹配准则及搜索方法。
设t 时刻的帧图像为当前帧f(x,y),t’ 时刻的帧图像为参考帧 f’(x,y),当 t’<t 时,称之为后向运动估计;当 t’>t 时,称之为前向运动估计。当在参考帧t’ 中搜索到当前帧 t 中的块的最佳匹配时,可以得到相应的运动场 d(x; t, t + △t ),即可得到当前帧的运动矢量。
目前有三种常用的匹配准则:
(1)绝对误差和(SAD, Sum of Absolute Difference)准则;
(2)均方误差(MSE, Mean Square Error)准则;
(3)归一化互相关函数(NCCF, Normalized Cross Correlation Function)准则。
其中SAD准则具有不需乘法运算、实现简单方便的优点,使用最多。
然后进行寻找最优匹配点的搜索工作。最简单可靠的方法是全搜索法(FS),但计算量太大,不便于实时实现。因此快速搜索法应运而生,主要有交叉搜索法、二维对数法和钻石搜索法,其中钻石搜索法被MPEG-4校验模型所采纳。
钻石搜索(DS, Diamond Search)法以搜索模板形状而得名,具有简单、鲁棒、高效的特点,是现有性能最优的快速搜索算法之一。
基本思想是利用搜索模板的形状和大小对运动估计算法速度及精度产生重要影响的特性。在搜索最优匹配点时,选择小的搜索模板可能会陷入局部最优,选择大的搜索模板则可能无法找到最优点。因此DS算法针对视频图像中运动矢量的基本规律,选用了两种形状大小的搜索模板。
(1)大钻石搜索模板(LDSP),包含9个候选位置;
(2)小钻石搜索模板(SDSP),包含5个候选位置。
搜索过程:开始阶段先重复使用大钻石搜索模板,直到最佳匹配块落在大钻石中心。由于LDSP步长大,因而搜索范围广,可实现粗定位,使搜索不会陷于局部最小,当粗定位结束后,可认为最优点就在LDSP 周围8个点所围菱形区域中。然后再使用小钻石搜索模板来实现最佳匹配块的准确定位,以不产生较大起伏,从而提高运动估计精度。
提高效率的主要技术:初始搜索点的选择,匹配准则,运动搜索策略。
1. 初始点的搜索:
1)直接选择参考帧对应块的中心位置,这种方法简单,但容易陷入局部最优点,如果初始的步长太大,而原点(指待搜索块的中心点在参考帧中的相同位置的对应点)不是最优点时,可能使快速搜索跳出原点周围的区域,而去搜索较远的点,导致搜索方向的不确定性,陷入局部最优。
2)选择预测的起点,以预测点作为搜索的起点,x264采用将运动估计矢量和参考帧的左边,上边和右上边的MB的中值MV作为起点进行ME。
2. 匹配准则:
x264中所采用的匹配准则是SAD,SATD。SAD 即绝对误差和,仅反映残差时域差异,影响PSNR值,不能有效反映码流的大小。SATD即将残差经哈德曼变换的4×4块的预测残差绝对值总和,可以将其看作简单的时频变换,其值在一定程度上可以反映生成码流的大小。因此,不用率失真最优化时,可将其作为模式选择的依据。
一般帧内要对所有的模式进行检测,帧内预测选用SATD。在做运动估计时,一般而言,离最优匹配点越远,匹配误差值SAD越大,这就是有名的单一平面假设。但是,转换后 SATD值并不满足该条件,如果在整像素中运用SATD搜索,容易陷入局部最优点。而在亚象素中,待搜索点不多,各点处的SAD差异相对不大,可以用 SATD选择码流较少的匹配位置。
3. 运动搜索策略:
x264所采用的运动搜索策略:
#define X264_ME_DIA 0 //钻石搜索
#define X264_ME_HEX 1 //六边形搜索
#define X264_ME_UMH 2 //非对称十字六边形网络搜索
#define X264_ME_ESA 3 //全搜索
#define X264_ME_TESA 4 //hadamard 全搜索法,这个算法和ESA相比主要是在搜索范围上的变化
运动估计与运动补偿技术
MPEG-4采用I-VOP、P-VOP、B-VOP三种帧格式来表征不同的运动补偿类型。它采用了H.263中的半像素搜索技术和重叠运动补偿技术,同时又引入重复填充技术和修改的块(多边形)匹配技术以支持任意形状的VOP(视频对象平面)区域。
此外,为提高运动估计算法精度,MPEG-4采用了MVFAST(Motion Vector Field Adaptive Search Technique)和改进的PMVFAST(Predictive MVFAST)方法用于运动估计。对于全局运动估计,则采用了基于特征的快速顽健的FFRGMET(Feature-based Fast and Robust Global Motion Estimation Technique)方法。
常见的三大开源H264编码器:JM、X264、T264
(1)JM H264的官方测试源码,实现了264的所有特性,但程序结构冗长,编码复杂度高,不推荐商业应用。
(2)X264 摈弃了264中对编码性能贡献小,但计算复杂度极高的新特性,开源,资源消耗又比较少,推荐商业应用。
(3)T264 编码与X264类似,但是解码器只能解T264编码的。
Lasso(Least absolute shrinkage and selection operator, Tibshirani(1996))方法是一种压缩估计。它通过构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。Lasso 的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0 的回归系数,得到可以解释的模型。
PCA 主成分分析:用于数据降维
假定m个样本:
,每个样本都有n个特征:
降维过程:
(1)特征归一化;
(2)计算降维矩阵;
a.计算样本特征的协方差矩阵
b.计算协方差矩阵的特征值和特征向量
(3)降维计算;
CVX:基于matlab的凸优化建模系统。