MMLU-Pro:新的 LLM 评估基准
一、背景
上一篇文章(LLM 评估汇总:真的吊打 LLaMA-3,媲美 GPT-4 吗?)我们简单汇总了一些常见的 LLM 评估指标,以及在收集这些指标时遇到的问题。最近在看 [2405.19327] MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series 时发现其提到了 MMLU-Pro 评估集,之前没有接触到,与此同时又正好看到了对应的 Paper,这里简单进行介绍。MAP-Neo 和 MMLU-Pro 的部分作者是相同的。
对应的 Paper:[2406.01574] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark
对应的数据集:TIGER-Lab/MMLU-Pro · Datasets at Hugging Face
对应的 Leaderboard:MMLU Pro - a Hugging Face Space by TIGER-Lab
二、摘要
在 LLM 的发展历程中,MMLU 这样的基准测试在推动 AI 在不同领域的语言理解和推理方面起到关键作用。然而,随着模型的不断改进,这些基准测试的性能开始趋于稳定,辨别不同模型能力的差异变得越来越困难。
因此作者创建了 MMLU-Pro,这是一个增强的数据集,旨在集成更具挑战性、以推理为主的问题,并将多项选择的选项从 4 个扩展到 10 个,以此来扩展广泛使用的 MMLU 基准。作者从 MMLU中删除了不重要问题和噪声问题。
实验表明,与 MMLU 相比,MMLU-Pro 进一步降低了不同模型的精度指标,还扩大了差距,各个模型的 MMLU-Pro 精度指标相比 MMLU 下降 16%-33%;此外,也在不同的提示下表现出更高的稳定性。通过测试 24 中不同风格的 Prompt,模型分数对 Prompt 变化的敏感性从 MMLU 的 4%-5% 下降到 MMLU-Pro 的 2%。最后,作者发现使用 CoT(思维链) 推理与直接回答相比,模型在 MMLU-Pro 上取得了更好的性能,这与原始 MMLU 中的表现形成鲜明对比,表明 MMLU-Pro 包含更复杂的推理问题。
三、引言
3.1 指标区分度
我们在之前的文章中梳理了各种 LLM 评估指标,可以发现很多模型在 MMLU,GSM-8K,BBH,HellaSwag 和 ARC-C 上的指标已经很高,尤其是 Top 的模型。如下图所示,其中 MMLU、HellaSwag,ARC-C 以及 GSM-8K 尤其明显,很多指标都到了 90 左右:
3.2 评估稳定性
在 DeepSeek-V2([2405.04434] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model)中,作者使用内部评估工具进行评估,其部分指标和其它论文中看到的不一致,有些甚至差距很大,这也就导致很难进行公平的比较。出现这种问题很可能是配置未对齐,比如使用了不同的 Prompt:
四、MMLU-Pro 数据集
4.1 概述
如下图 Figure 3 所示,新的 MMLU-Pro 数据集包含 14 个子集,总共 12032 个问题,左图为各个子集的占比。右图为各个数据集的来源,可以看出,56.5% 的问题来源于原始的 MMLU 数据集,然后又从 STEM Website、TheoremQA 和 Scibench 中收集了一部分数据。
3.2 数据集构建
MMLU-Pro 数据集的收集过程如下图 Figure 2 所示,主要包含如下几个步骤:
3.2.1 Initial Filtering
原始的 MMLU 数据集包含 57 个主题,作者将其合并到 14 个。然后使用 8 个小模型来评估(LLaMA2-7B、LLaMA2-7B-Chat、LLaMA2-13B、LLaMA2-13B-Chat、Mistral-7B、Gemma-7B、Yi-6B 和 Yi-6B-Chat),如果超过 4 个模型回答正确,则认为相应的问题太简单,从数据集删除。经过该步骤总共过滤掉 5886 个问题,具体如下图 Table 4 所示:
3.2.2 Question Collection and Integration
为了扩充数据集,作者从 STEM Website(Index of /subjects)、TheoremQA 和 SciBench 中收集了一部分数据。然后使用 GPT-4 Turbo 对上述数据进行了整理,以便与 MMLU 中过滤的数据保持一致,同时作者也进行了必要的人工校验,以删除 GPT-4 Turbo 处理异常的问题。
3.2.3 Option Augmentation
上述问题都是多项选择题,有 4 个选项。作者使用 GPT-4 Turbo 对问题进行了扩展,将 4 个选项扩展为 10 个选项。这些新增的选项也具有一定的迷惑性,可以帮助识别模型的推理能力,降低模型猜对的可能性,因此也使得评估更加鲁棒。此外,作者也进一步通过实验验证,使用 GPT-4 Turbo 来扩展并不会使得这个评估对 GPT-4 Turbo 更有利。
3.2.4 Expert Review
Expert Review 包含两个阶段:
- 验证答案的正确性,并删除不适合作为多项选择题的问题,或者缺乏必要文本信息的问题,比如包含图片,表格。
- 使用 Gemini-1.5-Pro 重新评估所有答案选项来识别 false negative,也就是正确答案被标记为错误答案的情况。并且会使用人类专家来严格审查这些问题。
如下图 Table 1 所示为筛选出来的问题:
- Incorrect Answer:答案错误的情况。主要来源为 MMLU 中本身答案是错误,以及 STEM Website 中错误提取。
- False Negative Options:这个问题主要来源为将单个答案问题转换为 4 个选项,以及 4 个选项进一步扩展为 10 个选项的阶段。通过专家 Review 会删除 False Negative 的选项,因此最终 83% 的问题有 10 个选项,17% 的问题选项少于 10 个,平均有 9.47 个选项。
- Bad Questions:比如不包含文本信息,缺乏文本信息,或者开放性问题。
如下图 Table 5 所示为最终问题的分布:
五、实验
5.1 Few-Shot CoT 评估
如下图 Table 2 所示,作者基于提出的 MMLU-Pro 评估了常见的 LLM(除了 Gemini-1.5 Pro 和 Gemini-1.5-Flash 为 0-shot 外,其它都是 5-shot,并且都用了 CoT)。可以看出,闭源模型相比开源模型还是有比较明显的优势,其中 GPT-4o 性能最优,而在开源模型中,LLaMA-3-70B-Instruct 性能最优:
5.2 与 MMLU 对比
如下图 Figure 4 所示,作者对比了同样模型在 MMLU-Pro 和 MMLU 上的指标。可以看出在 MMLU-Pro 上的精度明显低于 MMLU,并且在 MMLU-Pro 上的区分度更大,这也证明 MMLU-Pro 更加有挑战:
如下图所示为我们收集到的一些对比数据:
5.3 不同 Prompt 的影响
如下图 Figure 5 所示,作者进一步在 MMLU 和 MMLU-Pro 上验证了不同 Prompt 对评估结果的影响,可以看出在 MMLU-Pro 上的评估差异更小,也证明其评估集更加鲁棒:
5.3 CoT 的影响
如下图 Table 3 所示,作者进一步在 MMLU 和 MMLU-Pro 上验证了直接问答以及使用 CoT 的差异,可以看出,在 MMLU-Pro 上使用 CoT 和不使用 CoT 的差异更大,可以证明 MMLU-Pro 数据集需要更强的推理能力:
六、参考链接
- https://arxiv.org/abs/2405.19327
- https://arxiv.org/abs/2406.01574
- https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro
- https://huggingface.co/spaces/TIGER-Lab/MMLU-Pro
- https://arxiv.org/abs/2405.04434
- https://stemez.com/subjects
本文转载自 AI闲谈,作者: AI闲谈