作者 | 马超

责编 | 王晓曼

近日,新一代国际视频编解码标准(H.266/VVC)正式出炉,其中VVC是JVET(Joint Video Exploration Team)在2018年4月10日美国圣地亚会议上正式得名的(Versatile Video Coding)。

H.266/VVC目标是全面超越上一代标准H.265/HEVC,提供更高的压缩性能。从目前的情况看H.266/VVC方案的目标,已经圆满的达成了。相对于H.265/HEVC,新一代国际视频编解码标准(H.266/VVC)能够在不影响主观质量的情况下,将压缩比例提高了50%。可以说如果新的H.266/VVC标准能够顺利推广,那么将使整个高清视频行业迎来一波重大的发展机遇,尤其是与5G的发展叠加,其未来发展空间可谓巨大。

由于H.266/VVC将会成为国际通用的视频标准,代表业界未来视频编码技术的方向,因此包括高通、HHI、三星、索尼、Intel、诺基亚、爱立信等国际巨头全部参与其中。腾讯、华为、大疆等中国科技厂商也有不少贡献。腾讯有超过100项技术提案获得标准采纳,在国际视频压缩标准研究制定领域跻身世界前列。

H.266何以如此高效

H.266/VVC与H.265/HEVC有相同的编解码器模块,都包含块划分、帧内预测、帧间预测、变换与量化、熵编码、滤波。H.266/VVC在每个模块上都有相应的提高,才最终达到相同主观质量下50%左右的码率节省。下面笔者将就各模块划一下重点,向各位读者加以解读一下:

编码器框架:(H.266/VVC)基于块的分层编码结构。其参考软件编码结构如下图所示:

视频编码深度学习 最新视频编码技术_视频编码

分块:在视频编码算法中,分块是堪称是技术底座,其任务是将图像被分成一系列的树形编码单元(CTU)。CTU可以进一步划分成编码单元(CU)。H.266采用了多类型树结构(Multi-Type Tree),即由四叉树(QT),二叉树(BT)和三叉树(TT)结构组成。这种划分结构比之前灵活很多,极大的提高了编码性能。

CTU首先由四叉树结构划分,即CTU块可以不划分或递归地划分成4个相同大小的子块。

视频编码深度学习 最新视频编码技术_二叉树_02

然后,在QT的叶节点可以通过二叉树或三叉树结构进一步划分。二叉树和三叉树划分可以交错并递归进行。但是,一旦应用二叉树或三叉树划分,就不允许进行四叉树的划分了。二叉树和三叉树有水平和垂直两种划分类型。对于二叉树划分,两种划分类型都是对称的。对于三叉树划分,划分的比例为1:2:1。

由下图可以看到,二叉树划分以中心线将一个块一分为二,而三叉树划分将中心区域保留成一个完整区域,与二叉树划分形成互补,从而提高了编码效率。此外,1:2:1的划分比例使得三叉树划分后,每一个CU的边长仍然是2的整数次幂,既方便进一步划分,又使得变换(transform)设计相对简单。

视频编码深度学习 最新视频编码技术_叉树_03

帧内预测:这是一种空间域压缩算法,利用当前块周边已重建像素对当前块进行预测,以去除相邻块之间的空间冗余度,实现更为有效的压缩。

帧间预测:这是一种时间域压缩算法,利用视频图像帧间的相关性,即时间相关性,来达到图像压缩的目的。

变换与量化:大量统计表明,视频信号中包含着能量上占大部分的直流和低频成分,即图像的平坦部分,也有少量的高频成分,即图像的细节。因此,可以在频域对于视频进行编码来达到压缩的目的。此外,量化技术可以进一步降低码率,根据应用要求,在码率和失真中达到平衡。

熵编码:我们知道熵是代表着一个系统混乱程度的量,而在信息论中,系统的熵也代表了其所包含的信息量,用精确的术语表述是,系统所有符号包含信息的平均比特数。而视频编码中,要尽可能的减少冗余,使之接近熵本身,即使用更少的编码,来表达更多的信息,熵编码,就是数据压缩中根据视频的概率模型,来压缩结果熵最小化的算法。

滤波:H.266/VVC中,除上一代标准中已有的Deblocking 和SAO两种滤波器外,还增加了自适应环路滤波ALF和亮度映射色度缩放滤波LMCS,从而进一步提高了编码效率。


来自腾讯的贡献


在本次H.266标准的制订过程中,腾讯多媒体实验室刘杉博士担任标准文本联合主编,李翔博士任参考软件联合主席,实验室数十人次担任专家小组主席,核心实验负责人。技术方面,腾讯的主要贡献包括:

  • 首发针对屏幕内容编码技术,并担任专家小组主席与核心实验负责人,牵头相关技术研究开发;
  • 牵头贡献多项帧内预测技术,如宽角度预测,多参考行预测等;
  • 担任帧间预测核心实验负责人,贡献包括放射变换和 Merge模式提高等多项技术;
  • 牵头主导变换类技术研究,负责相关核心实验,定义VVC主变换矩阵,贡献多个变换类技术与提高;
  • 牵头主导自适应分辨率技术与可伸缩编码技术的研究开发;
  • 牵头研究推动基于神经网络/深度学习的视频编码工具,担任专家小组主席与核心实验负责人,在H.266/VVC第一版本定稿之后,继续主导相关研究开发。

在笔者看到相关资料后,重点向读者介绍一下下面三个技术。

帧内块复制模式(IBC):

与H.265/HEVCSCC extension中的IBC不同,在H.266/VVC的IBC技术中,所有能够对当前编码块进行预测的当前图像的重建像素,将存放在大小为1个CTU的高速访问内存空间中,并通过当前块所在当前CTU中的位置,阶段性的刷新这个内存空间,实现最大化IBC的预测范围的目的。

如图所示,当左边CTU完成编码时,区域0,1,2,3的重建像素将存储在IBC的内存中(状态0)。当前CTU按照4->5->6->7的顺序依次编码四个区域。IBC内存中可用于对当前块进行预测的参考像素如状态1~状态4所示,在此过程中逐步将左边CTU中的像素,更新为当前CTU中的重建像素,直到当前CTU所有区域完成编码。

这样的内存更新机制,在高性能的编码和低实现成本的两个目标中达到了一个很好的平衡。

视频编码深度学习 最新视频编码技术_视频编码深度学习_04

宽角度模式(WAIP):在之前的帧内角度预测中,总共有65种角度模式,从模式2一直到模式66,宽角度模式从模式2往下扩展10个角度模式,新增了模式-1到-10,从模式66开始扩展10个角度模式,分别为模式67到76,从而可以更好编码压缩长方形的CU。

视频编码深度学习 最新视频编码技术_视频编码深度学习_05

当然在进行帧内预测的过程中,并不是所有的角度模式都可以使用,而是需要根据宽高比来选择合适候选预测模式的。

多参考行帧内预测技术(MRL): 在之前的帧内预测中,使用当前块的相邻左侧一列和相邻上侧一行作为参考采样来计算当前块的预测值,在MRL技术中,将可以使用的参考行扩展到多行。

视频编码深度学习 最新视频编码技术_叉树_06

也就是在使用角度模式进预测时,要将这多个参考行都尝试过,然后根据 RD COST(率失真损失)选择最小的一个参考行,参考行的索引和模式索引一样也要发送到解码端。解码端根据参考行索引来选择对应的参考行进行预测。

在5G红利全面爆发的时代,视频编码的标准制订无疑是各国竞争的一制高点,而这一次我国企业没有落后,深度参与了H.266标准制定,并牵头多方面的技术研究开发,这也为我国自主创新、自主掌握打下了良好的基础。

在本次标准制订过程中尤其令广大玩家兴奋的一点是,国际视频编解码标准联合专家组还采纳了腾讯多媒体实验室的提议,将王者荣耀视频片段纳入了标准测试序列,这也是手游第一次进入测试序列,这将提升电子竞技场景的编解码效率,也就是说以后游戏直播会更加流畅也更加没清晰了。