티스토리 뷰
[Open Source Contribution] Unsloth-zoo Contribution
developer0hye 2024. 12. 9. 21:35https://github.com/unslothai/unsloth-zoo/pull/21
Add `formatting_func` to Enable Lazy Data Loading in `UnslothVisionDataCollator` by developer0hye · Pull Request #21 · unsloth
Overview This PR introduces a new formatting_func parameter to the UnslothVisionDataCollator, allowing for dynamic formatting of examples during data collation. This enhancement addresses a critica...
github.com
unsloth로 qwen2vl7b 모델을 synthdog-ko로 파인튜닝 시켜보려고 했었다.
https://huggingface.co/datasets/naver-clova-ix/synthdog-ko
naver-clova-ix/synthdog-ko · Datasets at Hugging Face
{"gt_parse": {"text_sequence": "랑우탄과 비슷하게 두 발로 걸었다고 한다.스 무디는 신선한 과일 등을 얼려서 갈아 만든 음료이다. 단맛을 낸 다. 과일 외에도 부순 얼음 얼린 과일 얼린 요구르트 등 을
huggingface.co
학습 이미지가 50만장이 넘어가서 5만장만 샘플링해서 학습시켜야지~ 하고 학습시키려니까 학습전에 RAM 메모리가 부족해서 OOM이 뜨는 사태가 벌어졌다.

원인은 예제 코드에서 찾아볼 수 있는데 미리 이미지를 RAM에 다 올려두고 학습하기 때문이다.
그래서 이걸 학습 과정에서 그때그때 필요할때만 이미지를 Load할 수 있는 우회로를 터놓을 수 있게 구현을 해서 PR 을 날렸고 머지됐다.
수정된 분량은 굉장히 적지만 임팩트는 크다고 생각하다.
나는 스스로 이런 류의 PR을 날릴때 속으로 굉장히 좋아하곤한다.
그리고! VLM, LLM 관련한 프로젝트에 기여한거라 더 기분이 좋다.
앞으로도 메인스트림이 되는 기술은 놓치지 않고 따라라도 가며 이렇게 실제로 코드로 기여할 수 있으면 좋겠다.
'Contribution 일지' 카테고리의 다른 글
Open Source Contribution TopoFR inference bug fix 및 face recognition huggingface demo space 생성 (0) | 2025.02.03 |
---|---|
unsloth 너무 너무 불안정하다! (0) | 2024.12.30 |
오랜만에 작성하는 Contribution 일지 onepose (0) | 2024.11.25 |
[Open Source Contribution] RTDETR (1) | 2024.04.26 |
sahi 기여 (0) | 2024.04.10 |
- Total
- Today
- Yesterday
- 단축키
- 백트래킹
- 자료구조
- 인공지능을 위한 선형대수
- 조합
- LCA
- 백준 1766
- 순열
- PyCharm
- MOT
- 백준 11437
- 이분탐색
- FairMOT
- 백준
- 위상 정렬 알고리즘
- 가장 긴 증가하는 부분 수열
- 파이참
- 백준 11053
- Lowest Common Ancestor
- cosine
- ㅂ
- C++ Deploy
- 문제집
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |