티스토리 뷰
Docker
[Docker, NVIDIA, CUDA, GPU] Container 상에서 Failed to initialize NVML 에러
developer0hye 2024. 9. 2. 20:36아아...
Docker Container에서 nvidia-smi 를 입력하니
Failed to initialize NVML
라는 에러 메시지가 뜨면서 GPU 인식이 안된다.
도커를 재설치했다. 안된다.
최신 GPU Driver를 설치했다. 안된다.
Nvidia 도커를 재설치했다. 안된다
https://kimfra.com/55817c380fa949fbbfe16626a49c007b
privileged 를 True로 줬다.
되긴됐다.
근데 컨테이너 상에서 내가 Docker compose파일에 지정한 GPU 말고 다른 GPU들도 다 인식되더라 좀 찝찝했다.
내 해결 방법은 스택오버플로에서 찾을 수 있었다.
https://stackoverflow.com/a/78137688/10386667
- sudo vim /etc/nvidia-container-runtime/config.toml, then changed no-cgroups = false, save
- Restart docker daemon: sudo systemctl restart docker, then you can test by running sudo docker run --rm --runtime=nvidia --gpus all ubuntu nvidia-smi
no-cgroups 란 게 /etc/nvidia-container-runtime/config.toml 열어서 보면 true로 돼있는데 이걸 false로 바꾼다음 docker restart 하니까 잘됐다.
이거 전에도 좀 불안정했다. GPU 8개 다쓰려고하면 학습 좀 돌다말고 GPU를 인식 못하는 문제를 빈번히 겪고 4개만 사용해서 학습했었다. 이거 때문에 GPU 서버 납품 업체도 한 번 방문했는데 해결이 안됐었다. 근데, 이게 해결책이였는지는 모르겠지만 위에 명시한 삽질(Docker, Nvidia Docker, GPU Drive 업데이트)와 no-groups=false로 세팅해주고나니 잘된다...? 내일 가서 확인해봐야지
'Docker' 카테고리의 다른 글
터미널에서 실행한 docker container 터미널 종료시 exit 방지 방법 (0) | 2025.01.02 |
---|---|
docker compose 로 container 생성하며 shell에 attach하기 (0) | 2024.02.25 |
[Docker] Nvdia 컨테이너 상에서 TensorRT 쉽게 설치하기 (0) | 2023.07.23 |
[Docker] nvidia/cuda 이미지 태그 (0) | 2023.06.27 |
[Docker] cadvisor mountpoint for cpu not found Error (0) | 2023.04.04 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 순열
- 백준 1766
- PyCharm
- C++ Deploy
- 백트래킹
- MOT
- 문제집
- 가장 긴 증가하는 부분 수열
- 위상 정렬 알고리즘
- 인공지능을 위한 선형대수
- ㅂ
- 파이참
- FairMOT
- cosine
- 조합
- 백준 11437
- LCA
- 백준 11053
- 백준
- 자료구조
- 단축키
- 이분탐색
- Lowest Common Ancestor
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함