📜  RuntimeError:cuda 运行时错误(711):对等映射资源在 pytorch aten src THC THCGeneral.cpp:139 - Python (1)

📅  最后修改于: 2023-12-03 15:34:46.379000             🧑  作者: Mango

RuntimeError: CUDA runtime error (711): ...

概述

当使用 PyTorch 操作 CUDA 张量时,可能会遇到这个错误:

RuntimeError: cuda runtime error (711): (... error message ...)at pytorch aten src THC THCGeneral.cpp:139 - Python

这种错误通常提示了一个与 CUDA 相关的错误,通常是由于 CUDA 资源耗尽或其他 CUDA 访问问题导致的。

解决方案

以下是一些可能的解决方法:

1. 减少 CUDA 资源的使用
  • 减少 GPU 内存消耗:在训练期间,可能会占用很多 GPU 内存。可以通过以下方法减少 GPU 的内存使用:

    • 减少批量大小(batch size)
    • 减少模型参数量
    • 将模型中某些层的输出删除
    • 减少图像分辨率
  • 减少 CPU 内存消耗:有时,CPU 端内存的消耗也会影响到 CUDA 使用。可以通过减少网络模型、开启分布式训练、减少 worker 数量等方法减少 CPU 的内存消耗。

2. 关闭 GPU

如果您不需要使用 GPU,可以使用以下命令将它们关闭:

import os
os.environ['CUDA_VISIBLE_DEVICES']=''
3. 卸载和重新安装 PyTorch 和 CUDA

如果上述方法都不能解决 CUDA 相关的问题,可以考虑重新安装 PyTorch 和 CUDA。首先从计算机中卸载当前安装的 PyTorch 和 CUDA,然后按照官方文档重新安装。

4. 更改 CUDA 驱动程序

如果出现与 CUDA 驱动程序有关的问题,可以卸载当前 CUDA 驱动程序,然后安装与当前系统配置兼容的其他版本。

结论

以上是一些可能的解决方案,但并不能保证每个方法都适用于所有程序的情况。如果您的问题仍然存在,请查看其他可能的解决方案,或向 PyTorch 社区寻求帮助。