티스토리 뷰

https://github.com/unslothai/unsloth-zoo/pull/21

 

Add `formatting_func` to Enable Lazy Data Loading in `UnslothVisionDataCollator` by developer0hye · Pull Request #21 · unsloth

Overview This PR introduces a new formatting_func parameter to the UnslothVisionDataCollator, allowing for dynamic formatting of examples during data collation. This enhancement addresses a critica...

github.com

 

unsloth로 qwen2vl7b 모델을 synthdog-ko로 파인튜닝 시켜보려고 했었다.

 

https://huggingface.co/datasets/naver-clova-ix/synthdog-ko

 

naver-clova-ix/synthdog-ko · Datasets at Hugging Face

{"gt_parse": {"text_sequence": "랑우탄과 비슷하게 두 발로 걸었다고 한다.스 무디는 신선한 과일 등을 얼려서 갈아 만든 음료이다. 단맛을 낸 다. 과일 외에도 부순 얼음 얼린 과일 얼린 요구르트 등 을

huggingface.co

 

학습 이미지가 50만장이 넘어가서 5만장만 샘플링해서 학습시켜야지~ 하고 학습시키려니까 학습전에 RAM 메모리가 부족해서 OOM이 뜨는 사태가 벌어졌다. 

 

 

원인은 예제 코드에서 찾아볼 수 있는데 미리 이미지를 RAM에 다 올려두고 학습하기 때문이다.

 

그래서 이걸 학습 과정에서 그때그때 필요할때만 이미지를 Load할 수 있는 우회로를 터놓을 수 있게 구현을 해서 PR 을 날렸고 머지됐다.

 

수정된 분량은 굉장히 적지만 임팩트는 크다고 생각하다.

 

나는 스스로 이런 류의 PR을 날릴때 속으로 굉장히 좋아하곤한다.

 

그리고! VLM, LLM  관련한 프로젝트에 기여한거라 더 기분이 좋다.

 

앞으로도 메인스트림이 되는 기술은 놓치지 않고 따라라도 가며 이렇게 실제로 코드로 기여할 수 있으면 좋겠다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함