KOSMOS-2.5: A Multimodal Literate Model

相关链接:arXiv 关键字:multimodalliterate modeltext-intensive imagesTransformer architecturedocument-level text recognition

摘要

我们介绍了KOSMOS-2.5,这是一个用于机器阅读文本密集型图像的多模态文学模型。KOSMOS-2.5在大规模文本密集型图像上进行预训练,擅长两个不同但相互合作的转录任务:(1) 生成空间感知的文本块,每个文本块在图像中分配其空间坐标;(2) 生产结构化文本输出,以markdown格式捕捉样式和结构。通过共享的Transformer架构、特定任务的提示和灵活的文本表示,实现了这种统一的多模态文学能力。我们在端到端的文档级文本识别和图像到markdown文本生成上评估了KOSMOS-2.5。此外,该模型可以通过监督微调轻松适应任何文本密集型图像理解任务,使其成为涉及丰富文本图像的实际应用的通用工具。这项工作还为未来多模态大型语言模型的扩展铺平了道路。

核心方法

在这里插入图片描述

  1. 多模态文学模型:KOSMOS-2.5结合了视觉和文本信息,通过单一的Transformer基础模型来学习和生成基于两种模态的内容。
  2. 空间感知文本块生成:模型能够识别文本行并将其与图像中的相应空间坐标对齐,生成带有边界框的文本。
  3. 结构化文本输出:模型能够捕捉文本的样式和结构,并将其转换成markdown格式的输出。
  4. 共享Transformer架构:KOSMOS-2.5采用了基于Vision Transformer的视觉编码器和基于Transformer的语言解码器,通过重采样模块连接。
  5. 灵活的文本表示:模型支持多种文本表示,包括带边界框的文本行和纯markdown文本。

实验说明

实验结果展示了KOSMOS-2.5在多个任务上的性能,包括端到端的文档级文本识别和图像到markdown文本的生成。实验使用了不同的基准数据集,如FUNSD、SROIE和CORD,以及从各种来源生成的图像到markdown的数据集。评估指标包括单词级别的精确度、召回率和F1分数,以及归一化编辑距离(NED)和归一化树编辑距离(NTED)。

数据集 任务 指标 KOSMOS-2.5 商业OCR
FUNSD 文本识别 F1 83.26% 82.93%
SROIE 文本识别 F1 92.14% 89.69%
CORD 文本识别 F1 85.69% 84.34%
通用文档 图像到markdown NED/NTED 91.59%/82.08% -
README 图像到markdown NED/NTED 95.09%/91.18% -
表格 图像到markdown NED/NTED 85.14%/90.64% -

实验数据来源于多种文本密集型图像,包括IIT-CDIP数据集、arXiv论文、PowerPoint幻灯片、一般PDF文件、网页截图、README文件、DOCX页面、LATEX代码和HTML文件。数据经过预处理和质量控制,以确保多样性和准确性。

结论

我们介绍了KOSMOS-2.5,这是一个多模态文学模型,它在文本密集型图像理解方面表现出色。KOSMOS-2.5代表了从传统的编码器-解码器模型到解码器-只有模型的重要范式转变。它通过整合生成性多模态语言建模简化了应用接口,消除了传统上用于各种下游任务的复杂级联管道。此外,KOSMOS-2.5展示了在少次和零次学习场景中的潜力,为未来多模态文学模型的扩展和扩展奠定了基础。