滴滴云A100 GPU裸金属服务器(BMS)是基于NVIDIA A100 GPU推出的公有云裸金属服务器产品,NVIDIA A100 Tensor Core GPU基于最新的Ampere架构,相比上一代NVIDIA Tesla V100 GPU增加了许多新特性,在HPC、AI和数据分析领域都有更好的表现。嘻嘻伯伯来详细说下滴滴云GPU裸金属服务器A100硬件参数及性能详解:
滴滴云A100 GPU裸金属服务器
A100为NVIDIA最新发布的顶级GPU,滴滴云A100 GPU裸金属服务器(BMS)是基于NVIDIA A100 GPU推出的公有云裸金属服务器。NVIDIA A100 Tensor Core GPU基于最新的Ampere架构,相比上一代NVIDIA Tesla V100 GPU增加了了许多新特性,在HPC、AI和数据分析领域都有更好的表现。滴滴云GPU服务器使用AI大师码 1717
购买GPU等产品享9折优惠。
滴滴云基于 A100 GPU 的产品包括裸金属服务器(BMS)、透传性 GPU 云服务器和 vGPU 云服务器产品,可用于深度学习训练/推理、视频处理、科学计算、图形图像处理等场景。目前基于 A100 GPU 的裸金属服务器产品开放测试,欢迎企业用户垂询。
A100 搭载了革命性的多实例 GPU(Multi-instance GPU 或 MIG)虚拟化与 GPU 切割能力,对云服务供应商(CSPs)更加友好。当配置为 MIG 运行状态时,A100 可以通过分出最多 7 个核心来帮助供应商提高 GPU 服务器的利用率,无需额外投入。A100 稳定的故障分离也能够让供应商安全的分割GPU。
A100 带有性能强劲的第三代 Tensor Core,支持更为丰富的 DL 和 HPC 数据类型,同时具有比 V100 更高的计算吞吐。 A100 新的稀疏(Sparsity)特性能够进一步让计算吞吐翻倍。新的 TensorFloat-32 (TF32) 核心运算单元让 A100 在 DL 框架和 HPC 中轻松加速以 FP32 作为输入/输出数据的运算,比 V100 FP32 FMA 操作快10倍,稀疏优化(sparse)下可以达到 20 倍。在 FP16/FP32 的混合精度下也能达到 V100 的 2.5 倍,稀疏优化后达 5 倍。新的 Bfloat16(BF16)/FP32 混合精度 Tensor Core 运算单元和 FP16/FP32 混合精度以相同的频率运行。Tensor Core 对 INT8,INT4 和 INT1 的加速为 DL 推理提供了全面支持,A100 sparse INT8 比 V100 INT8 快 20 倍。在 HPC 中,A100 Tensor 核心的 IEEE 兼容 FP64 处理让它的表现是 V100的 2.5 倍。
下图为A100 GPU支持的各种浮点数据类型位宽表示:
A100 硬件参数与前代GPU对比
板卡名 | Tesla V100 SXM2 | RTX 2080 Ti | Quadro RTX 6000 | Tesla A100 SXM4 |
GPU 型号 | GV100 | TU102 | TU102 | GA100 |
GPU 工艺 | TSMC 12nm | TSMC 12nm | TSMC 12nm | TSMC 7nm |
CUDA 架构 | Volta(SM_70) | Turing (SM_75) | Turing (SM_75) | Ampere(SM_80) |
SM 数目 | 80 | 68 | 72 | 108 |
SP 数目 | 5120 | 4352 (=68 * 64) | 4608 (=72 * 64) | 6912 (=108 * 64) |
GPU 时钟频率 | 1.53 GHz | 1.545 GHz* | 1.77 GHz | 1.41 GHz |
ROPs | 128 | 88 | 96 | 160 |
TMUs | 320 | 272 | 288 | 432 |
Tensor Cores | 640 | 544 | 576 | 432 |
RT Cores | N/A | 68 | 72 | N/A |
显存容量 | 32 GB HBM2 | 11 GB GDDR6 | 24 GB GDDR6 | 40 GB HBM2E |
显存位宽 | 4096 bits | 352 bits | 384 bits | 5120 bits |
显存频率 | 0.876 GHz(x2) | 1.75 GHz(x8) | 1.75 GHz(x8) | 1.215 GHz(x2) |
显存带宽 | 897 GB/s | 616 GB/s** | 672 GB/s | 1555 GB/s |
功耗 | 250 W | 250 W | 260 W | 400 W |
A100与前代GPU CUDA Core/Tensor Core计算能力对比(单位:每时钟周期每 SM 乘累加次数):
根据上述表格中的数字可以计算出A100峰值计算能力:
计算类型 | 峰值吞吐(TFLOPS/TOPS) |
FP64, CUDA Core | 9.746(= 108 x 32 x 1410MHz x 2) |
FP64, Tensor Core | 19.49(= 108 x 64 x 1410MHz x 2) |
FP32, CUDA Core | 19.49(= 108 x 64 x 1410MHz x 2) |
TF32, Tensor Core | 155.9(= 108 x 512 x 1410MHz x 2) |
TF32, Tensor Core, Sparse | 311.87(= 108 x 1024 x 1410MHz x 2) |
FP16, CUDA Core | 77.96(= 108 x 256 x 1410MHz x 2) |
FP16, Tensor Core | 311.87(= 108 x 1024 x 1410MHz x 2) |
FP16, Tensor Core, Sparse | 623.74(= 108 x 2048 x 1410MHz x 2) |
INT8, CUDA Core | 77.96(= 108 x 256 x 1410MHz x 2) |
INT8, Tensor Core | 623.74(= 108 x 2048 x 1410MHz x 2) |
INT8, Tensor Core, Sparse | 1247.5(= 108 x 4096 x 1410MHz x 2) |
INT4, Tensor Core | 1247.5(= 108 x 4096 x 1410MHz x 2) |
INT4, Tensor Core, Sparse | 2495(= 108 x 8192 x 1410MHz x 2) |
INT1, Tensor Core | 4990(= 108 x 16384 x 1410MHz x 2) |