gpu显卡深度学习算法算力对比 gpu算力是什么_mob6454cc745a10的技术博客_51CTO博客

gpu显卡深度学习算法算力对比 gpu算力是什么

关注网络智叶

gpu显卡深度学习算法算力对比 gpu算力是什么

转载

网络智叶 2023-07-12 09:54:01

文章标签 gpu显卡深度学习算法算力对比人工智能 python CUDA 浮点 文章分类 深度学习人工智能

GPU性能参数：

计算能力（吞吐量）：

通常关心的是32位浮点计算能力。16位浮点训练也开始流行，如果只做预测的话也可以用8位整数。
单位为GFLOP/s，算力指标，表示每秒的浮点操作数量
每秒浮点运算量，是衡量GPU硬件计算能力的指标。

显存大小：

当模型越大，或者训练时的批量越大时，所需要的GPU内存就越多。
其主要功能就是暂时储存GPU要处理的数据和处理完毕的数据**。显存容量大小决定了GPU能够加载的数据量大小**。（在显存已经可以满足客户业务的情况下，提升显存不会对业务性能带来大的提升。在深度学习、机器学习的训练场景，显存的大小决定了一次能够加载训练数据的量，在大规模训练时，显存会显得比较重要。

显存位宽：

位数越大则瞬间所能传输的数据量越大
显存在一个时钟周期内所能传送数据的位数，位数越大则瞬间所能传输的数据量越大。这是显存的重要参数之一。
目前市场上的显存位宽有64位、128位、256位和512位几种，人们习惯上叫的64位显卡、128位显卡和256位显卡就是指其相应的显存位宽。显存位宽越高，性能越好价格也就越高，因此512位宽的显存更多应用于高端显卡，而主流显卡基本都采用128和256位显存。

显存带宽：

只有当内存带宽足够时才能充分发挥计算能力。
CUDA GPU的计算速度可以达到gigaflops（每秒10亿次浮点操作），是Core i7/Nethalem速度的十倍。为充分利用强大的计算能力，需要从存储器中（全局显存或计算机内存）尽量快地给他们提供数据。所以内存带宽就是衡量GPU的一个重要指标。

制作工艺：指的是晶体管与晶体管之间的距离，单位是纳米。制作工艺越小说明集成度越高，功耗越小，性能越好。目前NVIDIA最先进的Tesla采用7nm制程，GTX 1080 Ti采用16nm制程。

对于大部分用户来说，只要考虑计算能力就可以了。GPU内存尽量不小于4GB。但如果GPU要同时显示图形界面，那么推荐的内存大小至少为6GB。内存带宽通常相对固定，选择空间较小。
GPU基本概念：

CUDA：

是显卡厂商NVIDIA推出的运算平台。
CUDA核心数量决定了GPU并行处理的能力，在深度学习、机器学习等并行计算类业务下，CUDA核心多意味着性能好一些。
CUDA核心：每个GPU时钟进行一次单值乘法；

CUDA™是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。
Tensor Core：

CUDA是NVIDIA推出的统一计算架构，NVIDIA过去的几乎每款GPU都有CUDA Core，而Tensor Core是最近几年才有的，Tensor Core是专为执行张量或矩阵运算而设计的专用执行单元，而这些运算正是深度学习所采用的核心计算函数。Tensor核心在训练方面能够提供高达12倍的teraflops (TFLOPS) 峰值，而在推理方面则可提供6倍的TFLOPS峰值。每个Tensor核心每个时钟周期可执行64次浮点混合乘加 (FMA) 运算。
张量核心：每个GPU时钟进行一次矩阵乘法

FLOPS：即每秒浮点运算次数（亦称每秒峰值速度）是每秒所执行的浮点运算次数（英文：Floating-point operations per second；缩写：FLOPS）的简称，被用来评估电脑效能，尤其是在使用到大量浮点运算的科学计算领域中。

英伟达GPU类别：

gpu架构：Tesla、Fermi、Kepler、Maxwell、Pascal
显卡系列：GeForce-家庭娱乐、Quadro-工作站、Tesla-服务器
GeForce显卡型号：G/GS、GT、GTS、GTX、RTX
显卡系列在本质上并没有什么区别，只是NVIDIA希望区分成三种选择，GeFore用于家庭娱乐，Quadro用于工作站，而Tesla系列用于服务器。Tesla的k型号卡为了高性能科学计算而设计。
GeForce的显卡型号是不同的硬件定制，越往后性能越好，时钟频率越高显存越大，即G/GS<GT<GTS<GTX<RTX。
GTX 到RTX：RTX20显卡采用的“图灵”架构引入了RT计算单元，使其光线追踪性能超越上一代显卡的六倍，拥有了即时处理游戏光追的条件，NVIDIA认为这是一个划时代的进化，于是果断把沿用多年的“GTX”改名为“RTX”。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：chan go语言 panic go语言技巧

下一篇：android jenkins自动化测试 jenkins自动化测试框架

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册