Kimi k1.5 是一款新型的多模态大型语言模型(LLM),采用强化学习(RL)方法训练。

Kimi k1.5强化学习训练架构新方法介绍_强化学习

关键要素

  • 长上下文扩展(Long context scaling):模型将强化学习中的上下文窗口扩展到 128k,随着上下文长度的增加,性能持续提升。这是通过使用部分轨迹(partial rollouts)来提高训练效率实现的,即通过重用之前轨迹的大块内容来生成新的轨迹,避免从头开始重新生成新轨迹的成本。
  • 改进的策略优化(Improved policy optimization):模型采用基于长推理链(long-CoT)的强化学习公式,并使用在线镜像下降算法(online mirror descent)的变体进行稳健的策略优化。此外,还通过有效的采样策略、长度惩罚和数据配方优化来进一步改进算法,使模型在训练过程中更加高效和稳定。
  • 简约框架(Simplistic Framework):长上下文扩展和改进的策略优化方法建立了一个简单的强化学习框架,无需依赖更复杂的技术,如蒙特卡洛树搜索(Monte Carlo tree search)、价值函数(value functions)和过程奖励模型(process reward models),就能实现良好的性能。
  • 多模态训练(Mutimodalities):模型同时在文本和视觉数据上进行联合训练,具备同时处理两种模态信息的能力,使其能够更好地理解和生成包含文本和图像的内容。

Kimi k1.5强化学习训练架构新方法介绍_模态_02

技术报告核心内容总结

  • 背景知识:以往的语言模型预训练方法通过预测下一个词来扩展计算能力,但受限于可用训练数据的量。Kimi k1.5 通过强化学习扩展训练数据,使模型能够通过奖励机制进行探索,打破了对静态数据集的依赖。
  • 研究方法:报告详细介绍了 Kimi k1.5 的训练过程,包括预训练、普通监督微调(SFT)、长-CoT 监督微调和强化学习等阶段。特别强调了强化学习阶段的策略,如 RL 提示集的策划、长-CoT 监督微调和强化学习训练策略等。在强化学习中,模型通过采样一系列中间步骤(即推理链)来解决问题,并根据奖励信号优化策略,以提高解决问题的准确性。
  • 实验结果:Kimi k1.5 在多个基准测试中取得了优异的成绩,例如在 AIME 上达到了 77.5 的分数,在 MATH 500 上达到了 96.2,在 Codeforces 上达到了 94 百分位数,在 MathVista 上达到了 74.9。这些结果与 OpenAI 的 o1 模型相当。此外,报告还展示了 Kimi k1.5 的短-CoT(short-CoT)模型在 LiveCodeBench 和 AIME 等基准测试中的出色表现,证明了模型在有限的测试时间令牌预算下也能取得优异的成绩。
  • 结论:Kimi k1.5 通过强化学习实现了对大型语言模型的训练扩展,不仅在多模态推理方面取得了显著进展,而且在提高上下文长度和改进策略优化方面也取得了重要成果。这些进展为未来的人工智能研究提供了新的方向和可能性。