Titan RTX深度学习评测结果
NVIDIA TITAN RTX 专为数据科学、AI 研究、内容创作和通用 GPU 开发而构建。它基于 Turing 架构搭建,具有 4608 个 CUDA 核心、576 个用于加速 AI 的全速混合精度 Tensor Core 核心和 72 个用于加速光线追踪的 RT 核心。TITAN RTX 还包含 24 GB GPU 显存,支持使用大批量样本训练神经网络、处理大型数据集,并适用于大型动画模型和其他占用大量内存的工作流程。
AI硬件供应商Lambda Labs对Titan RTX、RTX 2080Ti、Tesla V100(32GB)、GTX 1080Ti、Titan Xp、Titan V只对单GPU在各种深度学习训练任务上的训练速度进行测试结果。
在 FP 32 单精度训练上,Titan RTX 平均:
- 比 RTX 2080Ti 快 8%;
- 比 GTX 1080Ti 快 46.8%;
- 比 Titan Xp 快 31.4%;
- 比 Titan V 快 4%;
- 比 Tesla V100(32 GB)慢 13.7%。
在 FP 16 半精度训练上,Titan RTX 平均: - 比 RTX 2080 Ti 快 21.4%;
- 比 GTX 1080 Ti 快 209.7%;
- 比 Titan Xp 快 192.1%;
- 比 Titan V 慢 1.6%;t
- 和 v100(32 GB)的对比还有待调整。
batch-size:
FP32 - 每秒钟处理的图像数量:
FP16 - 每秒钟处理的图像数量:
NVIDIA英伟达GPU显卡算力
GPU显卡分类:
- Tesla:用于技术和科学计算
- Quadro:用于专业可视化
- Jetson:用于AI自主机器
- GeForce和TITAN:
官方说明在GPU算力高于5.0时,可以用来跑神经网络。显存越高,意味着性能越强大,因为显存越大,batch size就越大,CUDA核可以更加接近满负荷工作。常见显卡的计算力:
GPU几个比较重要的参数:
- GPU架构:
不同款的GPU可能采用不同设计架构,比如GeForce 10系列的GTX 1080/1080Ti采用的是Pascal架构,而GeForce 20系列的RTX 2080/2080Ti采用的是Turing架构。不同架构的GPU,即使其他参数差不多,性能差别可能非常大。 - CUDA核心数量
CUDA核心数量越大越好,Geforce GTX 1080的CUDA核心数量是2560个。而Geforce RTX 2080Ti的CUDA核心数高达4352个。 - 显存位宽
代表GPU芯片每个时钟周期内能从GPU显存中读取的数据大小,这个值越大代表GPU芯片和显存之间数据交换的速度越快,性能越好。Geforce GTX 1080的显存位宽为256bit,Geforce RTX 2080Ti显存位宽为352bit。 - GPU工作频率
代表GPU每秒钟工作次数,单位为MHz,跟CPU的频率类似。该值越大代表性能越好。 - 显存带宽
代表GPU芯片每秒与显存交换的数据大小,这个值等于 显存位宽*工作频率,单位为GB/秒,该值越大,代表GPU性能越好。Geforce GTX 1080的显存带宽为320GB/秒,而它的升级版Geforce RTX 2080的带宽为448GB/秒。 - 显存容量
显存越高,意味着性能越强大,因为显存越大,batch size就越大,CUDA核可以更加接近满负荷工作。Geforce GTX 1080的显存为8GB,而该系列的旗舰版Geforce GTX 1080Ti的显存为11GB。Tesla系列显卡由于特殊的应用场景,有些型号的卡显存高达16G/24G不等。 - 功耗
GPU能耗,像Geforce这种消费级的显卡一般功耗非常高,Geforce GTX 1080的最大功耗为175W,Tesla P4的最大功耗为75W。像那种数据中心大规模级别的GPU部署,低功耗的显卡一年电费能省很多。