大模型微调基本概念（三）3SFT 最佳实践：数据集准备、SFT 超参数调整

原创

沈页dd 2024-10-10 15:01:03 ©著作权

©著作权归作者所有：来自51CTO博客作者沈页dd的原创作品，请联系作者获取转载授权，否则将追究法律责任

三、3SFT 最佳实践

数据集的质量对模型微调至关重要，毫不夸张的说，微调后的模型效果 80%取决于 SFT 训练数据，少量高质的数据要比大量低质或者普通的数据要好很多。

1）数据集格式

问答格式可以处理成多种文件格式, 例如 JSONL, Excel File, CSV; 核心是要保持两个独立的字段, 即问题和答案。

例如：

[
  {
    "question": "特种珊瑚是一种海洋动物吗？",
    "answer": "特种珊瑚虽然生活在海洋中，但它属于珊瑚软体类的石珊瑚目，是一种动物。而海洋动物是海洋中所有异养型生物的总称，包括鱼类、鲸类、浮游动物和游泳动物等，特种珊瑚只是其中的一种。"
  }
]

2）Prompt 优化

3）数据规模、数据多样性

在 SFT 上数据规模的重要性低于数据质量, 通常 1 万条左右的精标数据即可发挥良好的效果。

在扩充数据规模时需要注意数据多样性，多样性的数据可以提高模型性能。

在不扩大提示多样性的情况下扩大数据量时，收益会大大减少，而在优化数据质量时，收益会显著增加。

4）数据质量

挑选质量较高的数据，可以有效提高模型的性能。

数据质量用户需尽量自己把控，避免出现一些错误，或者无意义的内容。虽然平台也可以提供数据质量筛选的能力，但不可避免出现错筛的情况。

数据质量可以通过 ppl、reward model，文本质量分类模型等方式进行初步评估。经过人工进行后续筛选。

比如 10 万个样本 2-3 个 epoch 内为佳，2 ～ 5 万个样本一般是 4-5 个 epoch 并且领域增强的 SFT 数据不需要太多，质量一定要把握好，一般的领域总结回复的任务几百条数据即可（个人经验），视情况而定;小数据量可以适当增大 epoch，让模型充分收敛。

一般只需要关注以下三个超参数的调整

Epochs：需要根据数据集多少动态调整，比如 100 条数据时, Epoch 设置为 15，1000 条数据时, Epoch 为 10，10000 条数据时, Epoch 为 2。
Learning Rate：根据不同微调方法 LR 也需要调整，对于 LoRA 的 peft 训练方式，同时可以适当增大 LR
Global batch_size：调整 bs 可以加快训练速度，但是也会增加显存占用，需要根据 GPU 资源调整。如增加 accumulate step 32 64，当分布式节点增多时可以进一步增加 batch_size，提高吞吐。