티스토리 뷰

2일차에 pod이 생성된 후 20분 정도 접속이 지연된 케이스를 제외하고 아주 잘 활용하고 있다.
본격적으로 학습은 안돌려보고 인퍼런스나 llm, vlm 프롬프트 엔지니어링 시도해볼때 정도만 좀 써보고 있다.
ultralytics yolo11n 도 COCO 데이터셋으로 10에폭 정도 학습시켜봤다. AMP Check 하고 Caching 되어있는 데이터 읽어올때 좀 유독 오래 걸리긴했는데 어쨌든 학습은 됐다.(네트워크 스토리지 사용해서 그런가? 이쪽은 잘 몰라서...)
멀티 쥐피유(2x 4090)도 테스트 해보고 해보면서 버그도 발견해서 PR도 날려놨다. Child process를 무자비하게 죽이는 방식이라 메인테이너가 선뜻 머지 못시키고 있는 거 같다.
https://github.com/ultralytics/ultralytics/pull/17719
Fix: Add thorough cleanup of child processes to prevent GPU memory leaks in DDP training by developer0hye · Pull Request #17719
Description This PR adds additional cleanup logic using psutil to ensure all child processes are properly terminated after DDP (Distributed Data Parallel) training completes. Problem In some cases,...
github.com
'기타' 카테고리의 다른 글
runpod 사용 12일차 50달러 추가 결제 (0) | 2024.11.30 |
---|---|
AttributeError: module 'PIL.Image' has no attribute 'ExifTags'. 에러 해결 방법 (0) | 2024.11.30 |
hugging face 결제해보다. (0) | 2024.11.26 |
커서(cursor ai) 우분투에서 한글 입력 잘 안되는 문제 해결 방법 (1) | 2024.11.24 |
runpod 2일차 (0) | 2024.11.20 |
- Total
- Today
- Yesterday
- 조합
- 파이참
- 백준
- PyCharm
- 순열
- 단축키
- 백준 11437
- 자료구조
- 백준 1766
- 이분탐색
- ㅂ
- MOT
- cosine
- 백준 11053
- C++ Deploy
- 백트래킹
- Lowest Common Ancestor
- 인공지능을 위한 선형대수
- LCA
- FairMOT
- 가장 긴 증가하는 부분 수열
- 위상 정렬 알고리즘
- 문제집
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |