티스토리 뷰

https://github.com/ultralytics/ultralytics/pull/2549

 

add pre-caching stage to avoid nccl timeout by developer0hye · Pull Request #2549 · ultralytics/ultralytics

🤖 Generated by Copilot at 4d14f7e Summary 🚀🐛🧹 This pull request improves DDP compatibility with large datasets by adding a _pre_caching_dataset method to BaseTrainer that loads the data before DDP...

github.com

 

DDP setup 후 특정 timeout 시간(= 기본 30)분동안 통신이 없으면 timeout error가 발생함

 

특히 yolov8 학습 단계에서 dataset size가 큰 경우 데이터 로드 과정에서 timeout error가 발생하기 쉬움

 

이를 방지하기위하여 DDP setup 전에 dataset caching 되도록 수정

 

근데... 테스트 안해보고 올렸었고 이를 명시했고 테스트 후에 알려주겠다고 했는데 덥썩 머지가 됐다.

 

아무튼 다시 테스트 해봐야지...

 

관련 이슈

 

https://github.com/ultralytics/yolov5/issues/7481

 

NCCL timeout problem on DPP · Issue #7481 · ultralytics/yolov5

Search before asking I have searched the YOLOv5 issues and discussions and found no similar questions. Question I practiced custom datasets on official pulled images and code. When using cache trai...

github.com

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함