滴滴云A100 GPU裸金属服务器(BMS)是基于NVIDIA A100 GPU推出的公有云裸金属服务器产品,NVIDIA A100 Tensor Core GPU基于最新的Ampere架构,相比上一代NVIDIA Tesla V100 GPU增加了许多新特性,在HPC、AI和数据分析领域都有更好的表现。嘻嘻伯伯来详细说下滴滴云GPU裸金属服务器A100硬件参数及性能详解:

滴滴云A100 GPU裸金属服务器

A100为NVIDIA最新发布的顶级GPU,滴滴云A100 GPU裸金属服务器(BMS)是基于NVIDIA A100 GPU推出的公有云裸金属服务器。NVIDIA A100 Tensor Core GPU基于最新的Ampere架构,相比上一代NVIDIA Tesla V100 GPU增加了了许多新特性,在HPC、AI和数据分析领域都有更好的表现。滴滴云GPU服务器使用AI大师码 1717 购买GPU等产品享9折优惠。

滴滴云基于 A100 GPU 的产品包括裸金属服务器(BMS)、透传性 GPU 云服务器和 vGPU 云服务器产品,可用于深度学习训练/推理、视频处理、科学计算、图形图像处理等场景。目前基于 A100 GPU 的裸金属服务器产品开放测试,欢迎企业用户垂询。

A100 搭载了革命性的多实例 GPU(Multi-instance GPU 或 MIG)虚拟化与 GPU 切割能力,对云服务供应商(CSPs)更加友好。当配置为 MIG 运行状态时,A100 可以通过分出最多 7 个核心来帮助供应商提高 GPU 服务器的利用率,无需额外投入。A100 稳定的故障分离也能够让供应商安全的分割GPU。

A100 带有性能强劲的第三代 Tensor Core,支持更为丰富的 DL 和 HPC 数据类型,同时具有比 V100 更高的计算吞吐。 A100 新的稀疏(Sparsity)特性能够进一步让计算吞吐翻倍。新的 TensorFloat-32 (TF32) 核心运算单元让 A100 在 DL 框架和 HPC 中轻松加速以 FP32 作为输入/输出数据的运算,比 V100 FP32 FMA 操作快10倍,稀疏优化(sparse)下可以达到 20 倍。在 FP16/FP32 的混合精度下也能达到 V100 的 2.5 倍,稀疏优化后达 5 倍。新的 Bfloat16(BF16)/FP32 混合精度 Tensor Core 运算单元和 FP16/FP32 混合精度以相同的频率运行。Tensor Core 对 INT8,INT4 和 INT1 的加速为 DL 推理提供了全面支持,A100 sparse INT8 比 V100 INT8 快 20 倍。在 HPC 中,A100 Tensor 核心的 IEEE 兼容 FP64 处理让它的表现是 V100的 2.5 倍。

下图为A100 GPU支持的各种浮点数据类型位宽表示:

a100服务器是否需要虚拟化处理器 a100服务器价格_滴滴云AI大师码

A100 硬件参数与前代GPU对比

板卡名

Tesla V100 SXM2

RTX 2080 Ti

Quadro RTX 6000

Tesla A100 SXM4

GPU 型号

GV100

TU102

TU102

GA100

GPU 工艺

TSMC 12nm

TSMC 12nm

TSMC 12nm

TSMC 7nm

CUDA 架构

Volta(SM_70)

Turing (SM_75)

Turing (SM_75)

Ampere(SM_80)

SM 数目

80

68

72

108

SP 数目

5120

4352 (=68 * 64)

4608 (=72 * 64)

6912 (=108 * 64)

GPU 时钟频率

1.53 GHz

1.545 GHz*

1.77 GHz

1.41 GHz

ROPs

128

88

96

160

TMUs

320

272

288

432

Tensor Cores

640

544

576

432

RT Cores

N/A

68

72

N/A

显存容量

32 GB HBM2

11 GB GDDR6

24 GB GDDR6

40 GB HBM2E

显存位宽

4096 bits

352 bits

384 bits

5120 bits

显存频率

0.876 GHz(x2)

1.75 GHz(x8)

1.75 GHz(x8)

1.215 GHz(x2)

显存带宽

897 GB/s

616 GB/s**

672 GB/s

1555 GB/s

功耗

250 W

250 W

260 W

400 W

A100与前代GPU CUDA Core/Tensor Core计算能力对比(单位:每时钟周期每 SM 乘累加次数):

a100服务器是否需要虚拟化处理器 a100服务器价格_Core_02

根据上述表格中的数字可以计算出A100峰值计算能力:

计算类型

峰值吞吐(TFLOPS/TOPS)

FP64, CUDA Core

9.746(= 108 x 32 x 1410MHz x 2)

FP64, Tensor Core

19.49(= 108 x 64 x 1410MHz x 2)

FP32, CUDA Core

19.49(= 108 x 64 x 1410MHz x 2)

TF32, Tensor Core

155.9(= 108 x 512 x 1410MHz x 2)

TF32, Tensor Core, Sparse

311.87(= 108 x 1024 x 1410MHz x 2)

FP16, CUDA Core

77.96(= 108 x 256 x 1410MHz x 2)

FP16, Tensor Core

311.87(= 108 x 1024 x 1410MHz x 2)

FP16, Tensor Core, Sparse

623.74(= 108 x 2048 x 1410MHz x 2)

INT8, CUDA Core

77.96(= 108 x 256 x 1410MHz x 2)

INT8, Tensor Core

623.74(= 108 x 2048 x 1410MHz x 2)

INT8, Tensor Core, Sparse

1247.5(= 108 x 4096 x 1410MHz x 2)

INT4, Tensor Core

1247.5(= 108 x 4096 x 1410MHz x 2)

INT4, Tensor Core, Sparse

2495(= 108 x 8192 x 1410MHz x 2)

INT1, Tensor Core

4990(= 108 x 16384 x 1410MHz x 2)