用gpu跑深度学习但gpu利用率为0

原创

mob64ca12d42833 2024-12-23 05:48:53 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12d42833的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用 GPU 进行深度学习并解决 GPU 利用率为 0 的问题

在深度学习领域，GPU（图形处理单元）可以显著加速模型训练。因此，确保正确地利用 GPU 是非常重要的。但有时你可能会遇到“GPU 利用率为 0”的问题。本文将指导你如何使用 GPU 进行深度学习，并解决 GPU 利用率为 0 的问题。

整体流程

下面是实现使用 GPU 跑深度学习的步骤概览：

步骤	任务内容	命令/代码
第一步	确认 GPU 是否可用	`nvidia-smi`
第二步	安装 CUDA 和 cuDNN	参考 NVIDIA 官网指导
第三步	安装深度学习框架	`pip install tensorflow-gpu` 或 `pip install torch torchvision`
第四步	编写使用 GPU 的代码	使用 `with tf.device('/GPU:0'):` 或 `model.to('cuda')`
第五步	执行代码并监控 GPU 利用率	`nvidia-smi`

第一步：确认 GPU 是否可用

首先，我们需要确保系统能够正确识别 GPU。可以使用以下命令检查：

nvidia-smi

说明: 该命令将显示 GPU 的状态和利用率。如果显示信息的 “Utilization” 列为 0，表示 GPU 未被有效使用。

第二步：安装 CUDA 和 cuDNN

确保已经按照对应的深度学习框架（如 TensorFlow 或 PyTorch）的要求安装了 CUDA 和 cuDNN。这可以通过访问 [NVIDIA 官网]( CUDA。

第三步：安装深度学习框架

你可以根据自己的需求安装 TensorFlow 或 PyTorch。以下是对应的 Python pip 命令：

对于 TensorFlow:

pip install tensorflow-gpu

对于 PyTorch:

pip install torch torchvision

说明: 确保根据你的 CUDA 版本安装正确的框架版本。

第四步：编写使用 GPU 的代码

在你的代码中，需要明确指定使用 GPU。以下是 TensorFlow 和 PyTorch 的简单示例。

TensorFlow 示例:

import tensorflow as tf

# 检查是否有可用的 GPU
gpus = tf.config.list_physical_devices('GPU')
if gpus:
    try:
        # 按需分配 GPU 内存，避免过多占用
        for gpu in gpus:
            tf.config.experimental.set_memory_growth(gpu, True)
    except RuntimeError as e:
        print(e)

# 在 GPU 上运行模型
with tf.device('/GPU:0'):
    model = tf.keras.models.Sequential([
        tf.keras.layers.Dense(64, activation='relu', input_shape=(784,)),
        tf.keras.layers.Dense(10, activation='softmax')
    ])
    model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

说明: 上述代码检查可用图形处理单元并在 GPU 上创建一个简单的神经网络模型。

PyTorch 示例:

import torch
import torch.nn as nn
import torch.optim as optim

# 判定是否有可用的 GPU
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# 在 GPU 上构建模型
model = nn.Sequential(
    nn.Linear(784, 64),
    nn.ReLU(),
    nn.Linear(64, 10)
).to(device)

optimizer = optim.Adam(model.parameters())
criterion = nn.CrossEntropyLoss()

# 训练模型的示例
def train(model, criterion, optimizer, data_loader):
    model.train()
    for inputs, labels in data_loader:
        inputs, labels = inputs.to(device), labels.to(device)
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()