本文介绍 LLM 训练过程中重要的经验规律 Scaling Laws,它可以指导我们如何最大化训练效率,我们还可以借助它通过小规模实验预测大模型的性能表现
本文说明重要结论:设模型参数量为 N,训练数据量(Token)为 D,LLM训练中计算量(FLOPs)C ≈ 6ND
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号