该文章介绍了一项名为HEIM(Holistic Evaluation of Text-to-Image Models)的新基准,旨在全面评估文本到图像生成模型的能力与风险。作者指出,尽管近年来文本到图像模型(如DALL-E和Stable Diffusion)取得了显著的进展,但现有评估方法主要集中于文本与图像的对齐和图像质量,缺乏对原创性、美学、偏见、毒性等其他重要方面的考量。HEIM基准识别了12个评估方面,并设计了62个场景来测试26种最新的文本到图像模型。研究结果显示,没有单一模型在所有方面都表现优秀,体现了不同模型的优势差异。文章还提供了生成图像和人类评估结果,以便于透明和后续研究

文本到图像模型的整体评估_Text

1 HEIM基准

HEIM(Holistic Evaluation of Text-to-Image Models)基准旨在填补现有评估方法的空白,提供对模型能力和潜在风险的全面理解。

  • · 评估方面:HEIM识别了12个评估方面,包括文本-图像对齐、图像质量、美学、原创性、推理、知识、偏见、毒性、公平性、鲁棒性、多语言性和效率。
  • · 多场景评估:设计了62个场景用于评估不同方面,结合了人类评估和自动化指标,以反映更真实的评估结果。
  • · 模型比较:对26种最新的文本到图像模型进行统一评估,揭示不同模型在各个方面的表现差异,强调了没有单一模型在所有方面都表现优秀的现象。

文本到图像模型的整体评估_Image_02


2 评估结果

  •  模型性能的多样性:不同模型在不同方面的表现各异。例如,DALL-E 2在文本-图像对齐方面表现优异,而Openjourney在美学方面表现较好。
  • · 人类评估与自动指标的对比:发现人类评估与自动指标之间的相关性较低,特别是在美学和照片现实主义方面,强调了人类评估在图像生成模型评估中的重要性。
  • · 伦理与社会影响:对偏见、毒性和原创性等方面进行了深入分析,指出当前模型在这些方面的不足以及相关的伦理和法律风险。

文本到图像模型的整体评估_Text_03


3 结语

文章提出了HEIM基准,通过全面评估12个关键方面,旨在深入理解文本到图像生成智能体的能力与风险。

论文题目: Holistic Evaluation of Text-To-Image Models

论文链接: https://arxiv.org/abs/2311.04287


PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!

文本到图像模型的整体评估_Text_04

精彩回顾

1. 自适应多模态检索-增强生成

2. 使用人工智能反馈的强化学习调优多模态视频模型

3调查 CoT 增强蒸馏的奥秘