5-服务器使用教程

查看GPU使用状态

通过 nvidia-smi 命令查看

系统已安装 NVIDIA 显卡驱动后,可使用以下命令查看 GPU 状态:

1
nvidia-smi

示例如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.120 Driver Version: 550.120 CUDA Version: 12.4 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 Tesla V100-PCIE-16GB-LS Off | 00000000:00:1A.0 Off | 0 |
| N/A 38C P0 26W / 250W | 1MiB / 16384MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 1 Tesla V100-PCIE-16GB-LS Off | 00000000:00:1B.0 Off | 0 |
| N/A 34C P0 28W / 250W | 1MiB / 16384MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+

实时查看 GPU 状态(单位:[time] 为秒):

1
watch -n [time] nvidia-smi

若想更简洁地查看 GPU 状态,可使用 gpustat 命令。

通过 gpustat 命令查看

安装 gpustat

方法 1: 作为系统包安装(推荐)

1
sudo apt install gpustat

方法 2: 作为 Python 库安装

1
pip install gpustat

如使用 pip 安装,请添加环境变量:

1
2
3
4
vim ~/.bashrc   # 或使用 gedit 编辑器
# 添加以下内容到 bashrc 文件,[user] 替换为当前用户名
export PATH=/home/[user]/.local/bin/:$PATH
source ~/.bashrc

使用 gpustat 查看 GPU 状态

1
gpustat

实时查看 GPU 状态(单位:[time] 为秒):

1
gpustat -i [time]

输出示例:

1
2
[0] Tesla V100-PCIE-16GB-LS | 38°C,   0 % |   1 / 16384 MB | 
[1] Tesla V100-PCIE-16GB-LS | 36°C, 0 % | 1 / 16384 MB |

运行 Python 代码

  1. 指定文件路径运行:
1
python path/filename.py
  1. 进入代码文件夹后运行:
1
python filename.py

为代码指定显卡

在服务器终端指定 GPU

1
2
3
4
CUDA_VISIBLE_DEVICES=0    python your_file.py  # 使用 GPU 0,其余屏蔽
CUDA_VISIBLE_DEVICES=1 # 仅使用 GPU 1
CUDA_VISIBLE_DEVICES=0,2 # 使用 GPU 0 和 2
CUDA_VISIBLE_DEVICES="" # 禁用所有 GPU

在 Python 代码中指定 GPU

1
2
3
import os
os.environ["CUDA_VISIBLE_DEVICES"] = '0' # 使用 GPU 0
os.environ['CUDA_VISIBLE_DEVICES'] = '0,2' # 使用 GPU 0,2

为 GPU 设置显存占用量

1
2
3
config = tf.ConfigProto()
config.gpu_options.per_process_gpu_memory_fraction = 0.9 # 设置为 90%
session = tf.Session(config=config)

允许显存使用量动态增长

1
2
3
config = tf.ConfigProto()
config.gpu_options.allow_growth = True
session = tf.Session(config=config)


5-服务器使用教程
https://blog.966677.xyz/2025/02/17/5-服务器使用教程/
作者
Zhou1317fe5
发布于
2025年2月17日
许可协议