📜  观看 nvidia smi (1)

📅  最后修改于: 2023-12-03 15:27:54.723000             🧑  作者: Mango

NVIDIA-SMI 观看顶尖GPU程序

NVIDIA System Management Interface (nvidia-smi) 是一款功能强大的命令行程序,用于监控和管理 NVIDIA GPU。在本文中,我们将介绍如何使用 nvidia-smi 来观察 GPU 的状态。

在开始前,请确保你已经正确安装 NVIDIA GPU 驱动程序和 nvidia-smi 工具。你可以在终端输入以下命令检查是否已经安装 nvidia-smi:

nvidia-smi

如果已经安装,则会显示类似以下输出:

Sat Dec 2021 15:20:01
+---------------------------------------------------------------------------+
| NVIDIA-SMI 470.63.01     Driver Version: 470.63.01     CUDA Version: 11.4   |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  GeForce GTX 1080    On   | 00000000:01:00.0  On |                  N/A |
| 28%   61C    P2   151W / 215W |  10193MiB /  8113MiB |     52%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

现在,让我们看看怎样观察 GPU 状态。

观察 GPU 利用率

要获取 GPU 利用率(包括 GPU 内存利用率)信息,请输入以下命令:

nvidia-smi

这会输出一个图表,显示了当前系统上的所有 NVIDIA GPU 的当前状况。例如:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.63.01              Driver Version: 470.63.01                 |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  GeForce GTX 1080    On   | 00000000:01:00.0  On |                  N/A |
| 51%   56C    P2    53W / 215W |   9372MiB /  8113MiB |      8%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

输出中,我们可以看到以下信息:

  • GPU 名称
  • GPU 的当前状态,“On” 表示 GPU 能够接受新的任务
  • 总共的 GPU 内存容量以及已使用的内存大小,单位为 MiB
  • GPU 利用率(用百分数表示)
观察 GPU 温度

要获取 GPU 的温度信息,请输入以下命令:

nvidia-smi --query-gpu=temperature.gpu --format=csv,noheader

输出应该类似这样:

59

这将输出 GPU 的温度,单位是摄氏度。

观察 GPU 性能

要获取 GPU 的性能信息,请输入以下命令:

nvidia-smi --query-gpu=clocks.sm,clocks.mem --format=csv,noheader

输出应该类似这样:

139MHz,101Mhz

这将输出 GPU 的核心和内存时钟频率信息,单位为 MHz。

您还可以使用以下命令输出更多信息:

nvidia-smi --query-gpu=clocks.all --format=csv,noheader

输出应该类似这样:

139MHz,101MHz,1050MHz,4800MHz,1050MHz,4800MHz,0MHz,10763MiB,0%,0%,0%,0%,0%,0%,87C

这将输出 GPU 的各种时钟速度、GPU 内存使用情况以及其他信息。

总之,nvidia-smi 工具非常强大,可以帮助程序员更好地监控自己的 GPU 状态,优化算法效率,提高开发效率。