本文介绍了一种名为DocFormerv2的多模态Transformer模型,它专为视觉文档理解(VDU)而设计。该模型可以处理视觉、语言和空间特征,利用编码器-解码器架构,并通过不对称地使用新颖的无监督任务进行预训练,以促进不同模态间局部特征的对齐。实验结果表明,DocFormerv2在包括表格事实验证、信息抽取和文档VQA在内的多个基准测试中表现优异,甚至在某些任务上超过了规模更大的模型。此外,详尽的消融研究表明,其预训练过程使得DocFormerv2在VDU领域内比现有技术更好地理解多种模态的信息。

用于文档理解的局部特征_编码器

1 DocFormer2

(1)模型架构:

  • DocFormerv2是一个多模态Transformer模型,专门用于视觉文档理解(Visual Document Understanding, VDU)。
  • 它是一个编码器-解码器结构的Transformer,能够接收视觉、语言和空间特征作为输入。

(2)预训练策略:

  • DocFormerv2采用了非对称的无监督任务来进行预训练,即编码器部分使用两个新颖的文档任务,而自回归解码器则使用另一个任务。
  • 预训练任务旨在确保模型能够鼓励多模态间的局部特征对齐。

(3)性能表现:

  • 在九个不同的数据集上评估,DocFormerv2显示了优于强大基线的表现,例如在TabFact、InfoVQA、FUNSD等任务上分别提升了4.3%、1.4%、1%的性能。
  • 对于涉及场景文本的三个视觉问答任务(VQA),DocFormerv2不仅超越了先前同样大小的模型,甚至在某些任务上还优于更大规模的模型,如GIT2、PaLi和Flamingo。

用于文档理解的局部特征_编码器_02

2 结语

文章介绍了DocFormerv2,一种用于视觉文档理解的多模态Transformer模型,通过结合视觉、语言和空间特征,并采用精心设计的无监督任务进行预训练,以实现对多模态信息的更好理解,在多个数据集上展示了最先进的性能。

论文题目: DocFormerv2: Local Features for Document Understanding

论文链接: https://arxiv.org/abs/2306.01733


PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!

用于文档理解的局部特征_编码器_03

精彩回顾

1. 使用文本到图像的风格转换扩散模型进行绘制

2. 用于无监督域适应的提示分布对齐

3. 揭示更多用于深度伪造检测的伪造线索