gpu运行模型 gpu 模块

转载

mob64ca140d96d9 2024-03-26 08:51:15

文章标签 gpu运行模型深度学习 pytorch 神经网络卷积 文章分类 游戏开发

cuDNN 深度神经网络的gpu加速库

背景介绍

使用

torch.distributed 分布式通讯包

timm 预训练库

用法示例

基于Apex的混合精度加速

什么是混合精度计算

from apex import amp

两种用于管理配置的模板库

1、argparse 解析命令行参数和选项

使用步骤

创建解析对象

为对象添加参数

parse_args()和parse_known_args()的区别：

2、yacs 定义和管理系统配置

创建CN()作为容器装载参数

API reference

参考

cuDNN 深度神经网络的gpu加速库

背景介绍

英伟达cuDNN(CUDA Deep Neural Network library)是一个用于深度神经网络的gpu加速库。其可大幅优化标准例程，例如卷积层、池化层、归一化层和激活层的实现。主要特征是：
1. 为所有常用卷积实现了 Tensor Core 加速，包括 2D 卷积、3D 卷积、分组卷积、深度可分离卷积以及包含 NHWC 和 NCHW 输入及输出的扩张卷积
2. 为诸多计算机视觉和语音模型优化了内核，包括 ResNet、ResNext、SSD、MaskRCNN、Unet、VNet、BERT、GPT-2、Tacotron2 和 WaveGlow
3. 支持 FP32、FP16 和 TF32 浮点格式以及 INT8 和 UINT8 整数格式
4. 4D张量的任意维排序、跨步和子区域意味着可轻松集成到任何神经网络实现中
5. 能为任意 CNN 架构上融合的运算提速

使用

import torch.backends.cudnn as cudnn
cudnn.benchmark = True

在利用pytorch进行网络训练时总会见到这行代码，它的作用是？主要为了优化运行效率，实现网络加速，让内置的cuDNN 的auto-tuner自动寻找最适合当前配置的高效算法。意思就是在模型启动的时候，只要额外多花一点预处理时间，就可以较大幅度减少训练时间。
代码加在哪里？一般加在开头就好，设置GPU时，补一句benchmark为True。
但要注意：
1、如果网络的输入数据维度或类型上变化不大，设置 torch.backends.cudnn.benchmark = true 可以增加运行效率，如batch size、图片大小、输入通道等不变
2、网络的输入数据在每次 iteration 都变化的话，会导致 cnDNN 每次都会去寻找一遍最优配置，这样反而会降低运行效率。
3、Benchmark模式会提升计算速度，但是由于计算中有随机性，每次网络前馈结果略有差异。如果想要避免这种结果波动，设置：
torch.backends.cudnn.deterministic = True #设置为True，说明使用非确定性算法

指定使用哪台机器：

torch.cuda.set_device(2)

不鼓励使用此功能函数。多数情况下，使用CUDA_VISIBLE_DEVICES环境变量:

import os   
os.environ["CUDA_VISIBLE_DEVICES"] = 0,1,2

torch.distributed 分布式通讯包

所述torch.distributed包提供跨在一个或多个计算机上运行的几个计算节点对多进程并行PyTorch支持与通信原语。 torch.distributed.init_process_group() 在调用任何其他方法之前，需要使用该函数初始化该包。这将阻止所有进程加入。
torch.distributed.init_process_group(backend, init_method='env://', kwargs)
参数：
backend (str) - 要使用的后端的名称。根据构建时配置有效值包括：tcp，mpi和gloo。
init_method（str，_可选） - 指定如何初始化包的URL。
world_size（int，_可选） - 参与作业的进程数。
rank（int，_可选） - 当前进程的等级。
group_name（str，_可选） - 组名称。请参阅init方法的说明。

timm 预训练库

PyTorch Image Models，是一个巨大的pytorch代码集合，包括：
image models、layers、utilities、optimizers、schedulers、data-loaders / augmentations、training / validation scripts
旨在将各种SOTA模型整合在一起，是一个好用的预训练库，以CV分类任务为主。
加载的模型储存在本地的：

>>>import timm
>>>timm.create_model('resnet34', pretrained=True)
>>>Downloading: "https://github.com/rwightman/pytorch-image-models/releases/download/v0.1-weights/resnet34-43635321.pth" to C:\Users\xxx/.cache\torch\hub\checkpoints\resnet34-43635321.pth

用法示例

import timm  
import torch  
all_pretrained_models_available = timm.list_models(pretrained=True)  
print(all_pretrained_models_available)  
print(len(all_pretrained_models_available))  
model = timm.create_model('resnet34')  
x = torch.randn(1, 3, 224, 224)  
preds = model(x)  
print('preds shape: {}'.format(preds.shape))  
all_feature_extractor = timm.create_model('resnet34', features_only=True)  
all_features = all_feature_extractor(x)  
print('All {} Features: '.format(len(all_features)))  
for i in range(len(all_features)):  
    print('feature {} shape: {}'.format(i, all_features[i].shape))  

feature_extractor = timm.create_model('resnet34', features_only=True, out_indices=[3])  
print('type:', type(feature_extractor))  
print('len: ', len(feature_extractor))  
for item in feature_extractor:
    print(item)

基于Apex的混合精度加速

什么是混合精度计算

半精度-16bit 单精度-32bit 双精度-64bit
低精度（FP16）的优点：
1）计算速度提升
2）降低计算中对设备带宽的需求，提升数据通讯和存储效率
3）Tensor Core的普及
低精度的缺点：
1）计算误差
2）溢出错误

通过研究，学者们发现计算过程中通过合理分配不同环节的数值精度，可以在保证最终计算结果准确的条件下，实现整体计算加速。混合精度（超精度）是指训练时在模型中同时使用16位和32位浮点类型。用FP16做储存和乘法以加速运算，用FP32做累加避免舍入误差

from apex import amp

NVIDIA发布的Apex开源工具库提供了amp(自动混合精度）和FP16_Optimizer两种不同的库。
amp:在神经网络推理过程中，针对不同的层，采用不同的数据精度进行计算。pytorch1.6版本开始，支持自动混合精度训练已进入稳定阶段，amp训练性能在Tensor Core GPU上实现更高的性能并节省多达50%内存

from apex import amp  
#像往常一样声明模型和优化器，默认(FP32)精度  
model = torch.nn.Linear(D_in, D_out).cuda()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-3
#允许amp根据opt_level的要求执行类型转换
model, optimizer = amp.initialize(model, optimizer, opt_level = "o1" )
with amp.scale_loss(loss, optimizer) as scaled_loss:
     scaled_loss.backward()

opt_level：o0-FP32训练，可作为准确率的baseline；o1-混合精度训练，根据黑白名单自动决定使用FP16还是FP32；o2-几乎FP16混合精度训练，不存在黑白名单，除BN，几乎都用FP16；o3-FP16训练，很不稳定，可作为速度的baseline。
针对单一optimizer使能amp:
1)代码中Optimizer之后添加：

optimizer = # ... some optimizer  
amp_handle = amp.init()

2)修改反向迭代部分

# ... do a bunch of stuff to compute a loss
loss.backward()
optimizer.step()
# ...finish the iteration

修改为

# ... same as before
with amp_handle.scale_loss(loss, optimizer) as scaled_loss:
     scaled_loss.backward()
optimizer.step()
# ... same as before

针对多Optimizer使能amp

amp_handle = amp.init()
optimizer = amp_handle.wrap_optimizer(optimizer, num_loss=2)    
# ...
optimizer.zero_grad()
loss1 = ComputeLoss1(model) 
with optimizer.scale_loss(loss1) as scaled_loss:
     scaled_loss.backward()
# ...
loss2 = ComputeLoss2(model)
with optimizer.scale_loss(loss2) as scaled_loss:
     scaled_loss.backward()
# ...
optimizer.step()

两种用于管理配置的模板库

1、argparse 解析命令行参数和选项

使用步骤

import argparse   #导入模块  
parser = argparse.ArgumentParser()     #创建解析对象
parser.add_argument()    #向该对象中添加要关注的命令行参数和选项
parser.parse_args()    #调用parse_args()方法进行解析

创建解析对象

ArgumentParser(prog=None,usage=None,description=None,epilog=None,parents=[],formatter_class=argparse.HelpFormatter, prefix_chars='-',fromfile_prefix_chars=None, argument_default=None,conflict_handler='error', add_help=True))

例如：

parse = argparse.ArgumentParser(prog = 'argparseDemo',prefix_chars= '+',description='the message info before help info',epilog="the message info after help info")

为对象添加参数

parser.add_argument('--batch_size', type=int, default=2048,help='batch size')

parse_args()和parse_known_args()的区别：

parse_args()函数返回的是一个命名空间-NameSpace，其中有一些变量就是add_argument()的参数。parse_known_args()返回的是一个有两个元素的元组，第一个元素是NameSpace，第二个是列表。后者的作用是当仅获取到基本设置时，如果运行命令中传入了之后才会获取到的其他配置，不会报错；而是将多出来的部分保存起来，留到后面使用。

import argparse
parse = argparse.ArgumentParser()
parse.add_argument('--data-path', type=str, help='path to dataset')
opt1 = parse.parse_args()
print(opt1)

opt2 = parse.parse_known_args()
print(opt2)
print(opt2[0])
print(opt2[1])

输出：

Namespace(data_path=None)
(Namespace(data_path=None), [])
Namespace(data_path=None)
[]

2、yacs 定义和管理系统配置

配置通常包括用于训练机器学习模型的超参数或可配置模型超参数（如网络深度）
导入：

from yacs.config import CfgNode as CN

创建CN()作为容器装载参数

容器可以嵌套

from yacs.config import CfgNode as CN
__C = CN()
__C.name = 'test'
__C.model = CN()  # 嵌套使用
__C.model.backbone = 'resnet'
__C.model.depth = 18
print(__C)

#输出
model:
   backbone: resnet
   depth: 18
name: test

一般创建一个config文件，命名为config.py/default.py,在文件中指定所有默认的配置选项。

#config.py
import os
import yaml
from yacs.config import CfgNode as CN

_C = CN()

# Base config files
_C.BASE = ['']

# -----------------------------------------------------------------------------
# Data settings
# -----------------------------------------------------------------------------
_C.DATA = CN()
# Batch size for a single GPU, could be overwritten by command line argument
_C.DATA.BATCH_SIZE = 128
# Path to dataset, could be overwritten by command line argument
_C.DATA.DATA_PATH = ''
# Dataset name
_C.DATA.DATASET = 'imagenet'
# Input image size
_C.DATA.IMG_SIZE = 224
……………………
……………………

对于每一次实验，不同的参数设置都需要创建一个yaml配置文件，该文件里只写出需要改变的参数，其他使用config.py里默认的

#configs\swin_base_patch4_window12_384.yaml 
#only for evaluation
DATA:
  IMG_SIZE: 384
MODEL:
  TYPE: swin
  NAME: swin_base_patch4_window12_384
  SWIN:
EMBED_DIM: 128
DEPTHS: [ 2, 2, 18, 2 ]
NUM_HEADS: [ 4, 8, 16, 32 ]
WINDOW_SIZE: 12
TEST:
  CROP: False

API reference

#clone
def get_cfg_defaults():
    return __C.clone()
  
#clear
print(__C.clear())  # None

#merge_from_file()
__C.merge_from_file("./test_config.yaml")

#freeze(),freeze the configs, and you can not change the value after this operation
__C.freeze()

#defrost(), reverse operation of freeze()
__C.defrost()

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。