该文章介绍了一项名为HEIM(Holistic Evaluation of Text-to-Image Models)的新基准,旨在全面评估文本到图像生成模型的能力与风险。作者指出,尽管近年来文本到图像模型(如DALL-E和Stable Diffusion)取得了显著的进展,但现有评估方法主要集中于文本与图像的对齐和图像质量,缺乏对原创性、美学、偏见、毒性等其他重要方面的考量。HEIM基准识别了12个评估方面,并设计了62个场景来测试26种最新的文本到图像模型。研究结果显示,没有单一模型在所有方面都表现优秀,体现了不同模型的优势差异。文章还提供了生成图像和人类评估结果,以便于透明和后续研究。
1 HEIM基准
HEIM(Holistic Evaluation of Text-to-Image Models)基准旨在填补现有评估方法的空白,提供对模型能力和潜在风险的全面理解。
- · 评估方面:HEIM识别了12个评估方面,包括文本-图像对齐、图像质量、美学、原创性、推理、知识、偏见、毒性、公平性、鲁棒性、多语言性和效率。
- · 多场景评估:设计了62个场景用于评估不同方面,结合了人类评估和自动化指标,以反映更真实的评估结果。
- · 模型比较:对26种最新的文本到图像模型进行统一评估,揭示不同模型在各个方面的表现差异,强调了没有单一模型在所有方面都表现优秀的现象。
2 评估结果
- 模型性能的多样性:不同模型在不同方面的表现各异。例如,DALL-E 2在文本-图像对齐方面表现优异,而Openjourney在美学方面表现较好。
- · 人类评估与自动指标的对比:发现人类评估与自动指标之间的相关性较低,特别是在美学和照片现实主义方面,强调了人类评估在图像生成模型评估中的重要性。
- · 伦理与社会影响:对偏见、毒性和原创性等方面进行了深入分析,指出当前模型在这些方面的不足以及相关的伦理和法律风险。
3 结语
文章提出了HEIM基准,通过全面评估12个关键方面,旨在深入理解文本到图像生成智能体的能力与风险。
论文题目: Holistic Evaluation of Text-To-Image Models
论文链接: https://arxiv.org/abs/2311.04287
PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!