由复旦、微软、虎牙、CMU的研究团队提出的StableAnimator框架,实现了高质量和高保真的ID一致性人类视频生成。
StableAnimator 生成的姿势驱动的人体图像动画展示了其合成高保真和 ID 保留视频的能力。FaceFusion 是一个换脸工具。GFP-GAN 和 CodeFormer 是人脸恢复模型。ControlNeXt 是最新的开源动画模型。
相关链接
- 论文:https://arxiv.org/abs/2411.17697
- 主页:https://francis-rings.github.io/StableAnimator/
- 代码:https://github.com/Francis-Rings/StableAnimator
- Demo: https://www.bilibili.com/video/BV1X5zyYUEuD
论文阅读
StableAnimator:高质量且可保留身份的人体图像动画
论文介绍
当前用于人体图像动画的扩散模型难以确保身份 (ID) 一致性。论文介绍了 StableAnimator,这是第一个端到端 ID 保留视频扩散框架,它以参考图像和一系列姿势为条件,无需任何后期处理即可合成高质量视频。基于视频扩散模型,StableAnimator 包含精心设计的模块,用于训练和推理,力求实现身份一致性。
具体而言,StableAnimator 首先分别使用现成的提取器计算图像和人脸嵌入,然后通过使用全局内容感知人脸编码器与图像嵌入交互来进一步细化人脸嵌入。然后,StableAnimator 引入了一种新颖的分布感知 ID 适配器,可防止时间层造成的干扰,同时通过对齐保留 ID。在推理过程中,
论文提出了一种基于 Hamilton-Jacobi-Bellman (HJB) 方程的新型优化,以进一步提高人脸质量。论文证明了求解 HJB 方程可以集成到扩散去噪过程中,并且得到的解可以限制去噪路径,从而有利于 ID 保存。在多个基准测试上的实验从定性和定量两个方面证明了 StableAnimator 的有效性。
方法介绍
StableAnimator 基于先前研究而来的常用 SVD。参考图像通过扩散模型通过三种途径进行处理:
- 由冻结的 VAE 编码器转换为潜在代码。潜在代码被复制以匹配视频帧,然后与主潜在代码连接。
- 由 CLIP 图像编码器编码以获得图像嵌入,这些嵌入分别被馈送到去噪 U-Net 的每个交叉注意力块和我们的人脸编码器,以调节合成的外观。
- 输入到 Arcface 以获得人脸嵌入,随后通过我们的人脸编码器对其进行细化以进一步对齐。然后将细化的人脸嵌入输入到去噪 U-Net。
具有与 AnimateAnyone 类似架构的 PoseNet 提取姿势序列的特征,然后将其添加到噪声潜在代码中。在推理过程中用随机噪声替换原始输入视频帧,而其他输入保持不变。论文提出了一种基于 HJB 方程的新型人脸优化方法,以提高 ID 一致性并消除对第三方后处理工具的依赖。它将 HJB 方程的求解过程集成到去噪中,从而实现最佳梯度方向以实现较高的 ID 一致性。
结果展示
与最先进方法的定性比较。
面部增强策略的消融研究。
结论
StableAnimator是一种视频扩散模型,具有专用的训练和推理模块,可生成高质量、保留 ID 的人体图像动画。StableAnimator 首先使用现成的模型来获取图像和人脸嵌入。为了捕捉参考的全局上下文,StableAnimator 引入了 8 个人脸编码器来细化人脸嵌入。StableAnimator 进一步设计了一个 ID 适配器,它应用对齐来减轻时间建模的干扰,实现无缝人脸嵌入集成而不会造成视频保真度损失。在推理过程中,为了进一步提高人脸质量,StableAnimator 将 HJB 方程与扩散去噪结合起来进行人脸优化。它与去噪并行运行,创建了一个端到端管道,从而无需第三方换脸工具。跨各种数据集的实验结果证明了该模型在生成高质量保留 ID 的人体动画方面的优势。