【2023 · CANN训练营第一季】N腾AI入门课(PyTorch)笔记

N腾计算语言接口AscendCL

AscendCL的优势如下:

  1. 高度抽象:算子编译、加载、执行的API归一,相比每个算子一个API,AscendCL大幅减少API数量,降低复杂度。
  2. 向后兼容:AscendCL具备向后兼容,确保软件升级后,基于旧版本编译的程序依然可以在新版本上运行。
  3. 零感知芯片:一套AscendCL接口可以实现应用代码统一,多款N腾处理器无差异。


PyTorch模型迁移——三种方法

•手工迁移

•脚本转换工具(msFmkTransplt)

•自动迁移(推荐)


手工迁移——Step1 迁移前的准备

关于分布式:由于NPU上的一些限制,PyTorch需要使用DistributedDataParallel(DDP),若原始代码使用的是DataParallel(DP)则需要修改为DDP,DP相应的一些实现例如torch.cuda.common,则可以替换为torch.distributed相关操作

关于混合精度:由于NPU天然的混合精度属性,我们需要使用apex对原始代码进行修改


手工迁移—— Step2 单P模型迁移

单P代码迁移的主要修改点

- 设备从cuda切换至npu

- torch.cuda. --> torch.npu.


手工迁移—— Step3 多P模型迁移

多P代码迁移的主要修改点

- “nccl” --> “hccl”


PyTorch模型迁移——脚本转换工具迁移

功能介绍

•脚本转换工具根据适配规则,对用户脚本给出修改建议并提供转换功能,大幅度提高了脚本迁移速度,降低了开发者的工作量。

•原脚本需要在GPU环境下且基于python3.7及以上能够跑通。

•脚本转换后的执行逻辑与转换前保持一致。

•此脚本转换工具当前支持PyTorch1.5.0和1.8.1版本的训练脚本转换。


PyTorch模型迁移——自动迁移(推荐)

使用方式——只需要增加一行

•from torch_npu.contrib import transfer_to_npu


AscendCL基础概念解析

Host&Device

Host:指与Device相连接的x86服务器、ARM服务器,会利用Device提供的NN(Neural-Network)计算能力,完成业务。

Device:指安装了芯片的硬件设备,利用PCIe接口与Host侧连接,为Host提供NN计算能力。若存在多个Device,多个Device之间的内存资源不能共享。


典型场景如在服务器上插Atlas300I设备:

将Atals 300I推理卡插入推理服务器(或个人PC)的主机中,此时程序的运行均在CPU侧进行控制,当需要进行专用计算(模型推理等)时,将CPU侧内存数据传输到NPU侧内存中,NPU侧完成专用计算后将数据回传至CPU侧。


CPU+内存所在这一侧,或者说,进程启动的这一侧,收集数据的这一侧,我们称之为“Host”侧;

NPU+Device所在这一侧,或者说,进行专用计算的这一侧,使用数据的这一侧,我们称之为“Device”侧


同步&异步

在AscendCL中当提及“同步&异步”的时候,都是站在调用者、执行者的角度来看的。

同步:当前线程发起一个方法调用,然后阻塞在调用点等待被调用方法执行完毕返回,再继续向下走。

异步:调用者向执行者下发一个任务之后,不等待任务执行完,而是立即返回往下走,暂且不管这个任务是否执行完毕。

把Stream理解为“任务队列”,另一层含义是在队列中任务的执行是保序的,即运行时环境会根据任务下发的顺序依次执行。异步执行需要知道(或者说确保)Stream中的任务都已经执行完毕了,此时需要以下接口确认Stream中任务全部执行完毕,调用这个接口的时候,线程会阻塞在调用点上,等待指定stream中所有任务全部执行完毕才会继续向下进行。