티스토리 뷰

아아...

 

Docker Container에서 nvidia-smi 를 입력하니

 

Failed to initialize NVML

 

라는 에러 메시지가 뜨면서 GPU 인식이 안된다.

 

도커를 재설치했다. 안된다.

 

최신 GPU Driver를 설치했다.  안된다.

 

Nvidia 도커를 재설치했다. 안된다

 

https://kimfra.com/55817c380fa949fbbfe16626a49c007b

 

[CUDA]Failed to initialize NVML: Unknown Error 오류

쿠버네티스 파드에서 GPU 를 사용할 때 발생하는 오류 해결 방법을 알아보았다.

kimfra.com

privileged 를 True로 줬다.

 

되긴됐다.

 

근데 컨테이너 상에서 내가 Docker compose파일에 지정한 GPU 말고 다른 GPU들도 다 인식되더라 좀 찝찝했다.

 

내 해결 방법은 스택오버플로에서 찾을 수 있었다.

 

https://stackoverflow.com/a/78137688/10386667

 

Failed to initialize NVML: Unknown Error in Docker after Few hours

I am having interesting and weird issue. When I start docker container with gpu it works fine and I see all the gpus in docker. However, few hours or few days later, I can't use gpus in docker. Whe...

stackoverflow.com

 

  1. sudo vim /etc/nvidia-container-runtime/config.toml, then changed no-cgroups = false, save
  2. Restart docker daemon: sudo systemctl restart docker, then you can test by running sudo docker run --rm --runtime=nvidia --gpus all ubuntu nvidia-smi

 

no-cgroups 란 게 /etc/nvidia-container-runtime/config.toml 열어서 보면  true로 돼있는데 이걸 false로 바꾼다음 docker restart 하니까 잘됐다.

 

이거 전에도 좀 불안정했다. GPU 8개 다쓰려고하면 학습 좀 돌다말고 GPU를 인식 못하는 문제를 빈번히 겪고 4개만 사용해서 학습했었다. 이거 때문에 GPU 서버 납품 업체도 한 번 방문했는데 해결이 안됐었다. 근데, 이게 해결책이였는지는 모르겠지만 위에 명시한 삽질(Docker, Nvidia Docker, GPU Drive 업데이트)와 no-groups=false로 세팅해주고나니 잘된다...? 내일 가서 확인해봐야지

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함