GPU 서버 모니터링 — 사용률·VRAM·온도·전력 한눈에
최종 업데이트: 2026-06-27
GPU 서버는 비싸고 발열·전력 소모가 큽니다. AI 학습·추론 중 과열로 클럭이 떨어지거나(throttling) VRAM이 부족하면 작업이 느려지거나 통째로 죽습니다. 그래서 CPU 서버와는 봐야 할 지표가 다릅니다.
봐야 할 지표
- GPU 사용률: 비싼 GPU가 놀고 있는지(낮음), 포화 상태인지.
- VRAM 사용률: 학습이 죽는 가장 흔한 원인이 VRAM 부족(OOM)입니다. 추이를 봐야 예방됩니다.
- 온도: 임계(보통 80~85°C) 부근에서 클럭이 자동으로 떨어져 느려집니다. 수명에도 영향.
- 전력·클럭: 전원·발열 한계에 걸리면 클럭이 하락 — throttling의 신호입니다.
빠른 점검
nvidia-smi # 사용률·VRAM·온도·전력 nvidia-smi dmon -c 5 # 5초간 추이
흔한 문제
- VRAM OOM: 배치 크기를 키웠거나 메모리 누수로 VRAM이 꽉 차 학습이 중단됩니다.
- 온도 throttling: 냉각 부족으로 임계 온도에 닿아 클럭이 깎이고 처리량이 떨어집니다.
- 유휴 낭비: 비싼 GPU가 0%로 놀고 있다면 스케줄링·할당을 점검해야 합니다.
Sentibel로 보면
Sentibel은 nvidia-smi(또는 rocm-smi)로 GPU 사용률·VRAM·온도·전력·클럭을 수집하고, 과열(기본 85°C)·VRAM 부족(기본 90%) 시 알림합니다. GPU가 없는 서버에서는 GPU 지표가 자동으로 숨겨집니다. GPU 지표를 같은 호스트의 CPU·메모리·디스크와 한 타임라인에서 봐, "학습이 느려진 게 GPU throttling 때문인지, 데이터 로더(CPU·디스크) 병목인지"까지 인과로 좁힙니다. (실제 NVIDIA T4 하드웨어에서 수집을 검증했습니다.)