티스토리 뷰

https://developer0hye.tistory.com/567

 

[Open Source Contribution] YOLOv8(ultralytics/ultralytics) 기여 #13

https://github.com/ultralytics/ultralytics/pull/2549 add pre-caching stage to avoid nccl timeout by developer0hye · Pull Request #2549 · ultralytics/ultralytics 🤖 Generated by Copilot at 4d14f7e Summary 🚀🐛🧹 This pull request improves DDP comp

developer0hye.tistory.com

 

이전 pr때 머지된게 문제가 있어서 revert 당함

 

그래서 2트!

 

https://github.com/ultralytics/ultralytics/pull/2616

 

Pre-caching dataset to avoid NCCL timeout before running DDP command by developer0hye · Pull Request #2616 · ultralytics/ultra

🤖 Generated by Copilot at a5caa27 Summary 🚀🛡️🗄️ This pull request improves the DDP training mode by pre-caching the dataset in trainer.py to prevent NCCL timeout errors. NCCL may fail pre-cache t...

github.com

 

수정내역만 보면 굉장히 별거아니지만, 어떻게하면 기존 코드 수정 최대한 덜하면서 caching을 할 수 있을지 생각과 시도를 많이 해봤다.

 

그리고... ddp nccl timeout이 init_process_group을 호출해주지 않아도, torchrun이나 python -m torch.distributed.launch 으로 실행해버리는 순간부터 timeout 체크를 위한 시간 측정이 시작되는 거 같다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/01   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함