📌  相关文章
📜  SystemError: GPU device not found site:stackoverflow.com (1)

📅  最后修改于: 2023-12-03 15:05:27.600000             🧑  作者: Mango

SystemError: GPU device not found

在使用深度学习框架时,我们通常会使用显卡进行计算加速,然而,在有些情况下我们会遇到类似于 "SystemError: GPU device not found" 的错误提示,这时我们需要针对错误进行排查和修复。

错误排查方法

出现此错误提示,我们可以尝试以下方法进行排查:

  1. 检查 GPU 是否存在
    • 可以通过 nvidia-smi 命令查看当前系统中是否存在可用的 GPU 设备。
  2. 检查 nvidia 驱动是否正确安装
    • CUDA 和 cuDNN 的版本与 nvidia 驱动版本有关,需确保版本对应。
    • 在确认已正确安装对应版本的 nvidia 驱动之后,需要进行相应的环境变量配置。
  3. 检查深度学习框架是否安装正确
    • 如果安装的是 TensorFlow、PyTorch 等深度学习框架,需要根据官方文档指引安装相应版本的库文件。在使用 GPU 加速时,需要安装 GPU 版本的库文件。
错误修复方法

针对不同的错误排查结果,可以进行相应的修复方法:

  1. 如果检测到 GPU 不存在,需要检查硬件是否正常连接或者是否存在其他进程占用等问题。
  2. 如果检测到 nvidia 驱动或者环境变量配置有误,需要重新安装 nvidia 驱动或者配置相应的环境变量。
  3. 如果检测到深度学习库文件安装有误,需要重新安装对应版本的库文件。
参考文献
# 代码示例
import tensorflow as tf

gpu_devices = tf.config.experimental.list_physical_devices('GPU')
if len(gpu_devices) == 0:
    print('GPU is not available.')
else:
    print('GPU is available.')