티스토리 뷰

가끔 PyTorch DDP 학습 돌리다가 갖가지 이유로 프로세스가 비정상적으로 종료되면, 종료도 제대로 안되고 유령 프로세스가 되어 GPU 를 그대로 점유하는 케이스가 있다.

 

그럴때 아래의 명령어를 실행시켜주면 된다.

 

근데, 윈도우에서는 안해봤다. Non-GUI OS에서만 테스트해봤다. GUI 딸린 OS 에서 아래 명령어 실행시키면 아마 뭔가 문제가 발생하지 않을까 싶다.

 

sudo kill -9 $(nvidia-smi --query-compute-apps=pid --format=csv,noheader)

 

경우에 따라 sudo 빼고 돌리면 됨

 

챗지피티가 알려줌, 직접 해봄, 됨

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함