MindSpeed_51CTO博客
mindspeed-llm是昇腾模型套件代码仓,原来叫"modelLink"。这篇文章带大家阅读一下数据处理脚本preprocess_data.py(基于1.0.0分支),数据处理是模型训练的第一步,经常会用到。 文章中贴的源码加了相关注释,同学们可以把源码和注释结合起来看。 首先来看一下main函数 def main(): # 获取入参,通过后面的代码可以知道有哪些关
AI
原创 2月前
130阅读
针对现有长序列训练场景的痛点,MindSpeed在并行算法、计算效率、内存占用以及通信四个维度系统性优化大模型长序列训练效率,支持大模型百万级长序列训练。
变色龙chameleon模型的官方仓库(https://github.com/facebookresearch/chameleon)并未开源训练的源代码,需要做训练代码的开发。开发方向昇腾modellink(已改名MindSpeed-LLM)的代码仓(https://Ascend/MindSpeed-LLM)具备llm的训练能力,但不支持多模态,不适配变色龙模型。根据变色龙的论文,变色龙模型的结构
原创 2月前
80阅读
 在自然语言处理领域,模型微调是一种强大的技术,可以让预训练模型适应特定的任务和数据集。本文将详细介绍如何使用 昇腾LLM分布式训练框架MindSpeed-LLM 进行 ChatGLM3-6B 模型的微调迁移,并结合工具进行性能分析和数据解析。一、迁移准备参考文档主要参考 昇腾LLM分布式训练框架MindSpeed-LLM 中的使用方式和流程进行迁移。二、迁移步骤首先