본문 바로가기
Setting/linux

[nvitop] GPU모니터링 용어 정리

by _YUJIN_ 2024. 1. 29.

nvitop 또는 nvidia-smi 명령어를 사용해서 현재 장착된 GPU 상태를 모니터링할 수 있다. 

  • nvitop 설치 및 사용
$ pip install nvitop
$ nvitop
  • nvidia-smi 설치 및 사용
    • 리눅스에 nvidia driver를 설치하면 nvidia-smi 명령어를 사용할 수 있다. 
$ nvidia-smi

 


1 . GPU 

  • 현재 설치되어 있는 gpu 번호
  • 0번부터 시작 

2 . Name

  • 사용하고 있는 GPU의 모델명

3 . Driver Version

  • 현재 사용하고 있는 nvidia GPU의 driver version

4 . CUDA Version 

  • 현재 사용하고 있는 드라이버와 호환이 잘 되는 cuda 버전 
  • 주의할 점, 현재 설치된 cuda 버전이 아님! 

5 . Persistence-M

  • persistence mode : GPU 커널 모듈의 활성화 상태 (on/off)
  • 기본 값으로는 OFF (커널 모듈 해제)
  • power를 얼마나 지속할지 정해줄 수 있음

6 . Fan

  • 현재 설치된 GPU의 fan 성능을 %로 나타냄

7 . Temp 

  • 현재 GPU의 온도를 섭씨로 표기 
  • 70~80도가 적절한 온도, 그 이상이면 성능이 떨어질 수 있음

8 . Perf 

  • Performance의 약자, GPU 성능 수준
  • P0 ~ P12로 구분 , P0에 가까울수록 성능이 좋은 것.

9 . Pwr:Usage/Cop

  • GPU가 최대 사용할 수 있는 전력대비 현재 사용 전력 비교
  • GPU 현재 전력의 사용량과 최대 용량을 나타냄

10 . Memory-Usage

  • GPU의 memory에 대해서 총 용량 대비 현재 사용량 표시
  • GPU마다 memory의 크기가 다름

11 . Volatile Uncorr.ECC

  • GPU가 데이터를 처리하는 과정에서 발생하는 에러의 수치 
  • on인 상태에서는 error count가 발생해서 0에서 점점 숫자가 증가하게 됨 -> 기본값은 Off 

12 . GPU-Util 

  • GPU의 현재 성능(사용량)을 나타냄 
  • 100% 성능 중에서 얼마만큼 사용하고 있는지 

13 . Compute M.

  • Compute mode
  • GPU 공유 접근 방법 (기본값 : 0)
  • 0번 : Default
  • 1번 : exclusive thread mode
  • 2번 : prohibited mode
  • 3번 : exclusive process mode
반응형

'Setting > linux' 카테고리의 다른 글

[ 리눅스 ] 현재 실행중인 port 확인하는 방법  (0) 2023.12.14
[ conda ] conda 채널 추가  (0) 2023.08.04