티스토리 뷰

기타

runpod 8일차 이상무

developer0hye 2024. 11. 27. 00:08

 

2일차에 pod이 생성된 후 20분 정도 접속이 지연된 케이스를 제외하고 아주 잘 활용하고 있다.

 

본격적으로 학습은 안돌려보고 인퍼런스나 llm, vlm 프롬프트 엔지니어링 시도해볼때 정도만 좀 써보고 있다.

 

ultralytics yolo11n 도 COCO 데이터셋으로 10에폭 정도 학습시켜봤다. AMP Check 하고 Caching 되어있는 데이터 읽어올때 좀 유독 오래 걸리긴했는데 어쨌든 학습은 됐다.(네트워크 스토리지 사용해서 그런가? 이쪽은 잘 몰라서...) 

 

멀티 쥐피유(2x 4090)도 테스트 해보고 해보면서 버그도 발견해서 PR도 날려놨다. Child process를 무자비하게 죽이는 방식이라 메인테이너가 선뜻 머지 못시키고 있는 거 같다.

 

https://github.com/ultralytics/ultralytics/pull/17719

 

Fix: Add thorough cleanup of child processes to prevent GPU memory leaks in DDP training by developer0hye · Pull Request #17719

Description This PR adds additional cleanup logic using psutil to ensure all child processes are properly terminated after DDP (Distributed Data Parallel) training completes. Problem In some cases,...

github.com

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함