[Open Source Contribution] Unsloth-zoo Contribution

티스토리 뷰

Contribution 일지

[Open Source Contribution] Unsloth-zoo Contribution

developer0hye 2024. 12. 9. 21:35

https://github.com/unslothai/unsloth-zoo/pull/21

Add `formatting_func` to Enable Lazy Data Loading in `UnslothVisionDataCollator` by developer0hye · Pull Request #21 · unsloth

Overview This PR introduces a new formatting_func parameter to the UnslothVisionDataCollator, allowing for dynamic formatting of examples during data collation. This enhancement addresses a critica...

github.com

unsloth로 qwen2vl7b 모델을 synthdog-ko로 파인튜닝 시켜보려고 했었다.

https://huggingface.co/datasets/naver-clova-ix/synthdog-ko

naver-clova-ix/synthdog-ko · Datasets at Hugging Face

{"gt_parse": {"text_sequence": "랑우탄과 비슷하게 두 발로 걸었다고 한다.스 무디는 신선한 과일 등을 얼려서 갈아 만든 음료이다. 단맛을 낸 다. 과일 외에도 부순 얼음 얼린 과일 얼린 요구르트 등 을

huggingface.co

학습 이미지가 50만장이 넘어가서 5만장만 샘플링해서 학습시켜야지~ 하고 학습시키려니까 학습전에 RAM 메모리가 부족해서 OOM이 뜨는 사태가 벌어졌다.

원인은 예제 코드에서 찾아볼 수 있는데 미리 이미지를 RAM에 다 올려두고 학습하기 때문이다.

그래서 이걸 학습 과정에서 그때그때 필요할때만 이미지를 Load할 수 있는 우회로를 터놓을 수 있게 구현을 해서 PR 을 날렸고 머지됐다.

수정된 분량은 굉장히 적지만 임팩트는 크다고 생각하다.

나는 스스로 이런 류의 PR을 날릴때 속으로 굉장히 좋아하곤한다.

그리고! VLM, LLM 관련한 프로젝트에 기여한거라 더 기분이 좋다.

앞으로도 메인스트림이 되는 기술은 놓치지 않고 따라라도 가며 이렇게 실제로 코드로 기여할 수 있으면 좋겠다.

'Contribution 일지' 카테고리의 다른 글

Open Source Contribution TopoFR inference bug fix 및 face recognition huggingface demo space 생성 (0)	2025.02.03
unsloth 너무 너무 불안정하다! (0)	2024.12.30
오랜만에 작성하는 Contribution 일지 onepose (0)	2024.11.25
[Open Source Contribution] RTDETR (1)	2024.04.26
sahi 기여 (0)	2024.04.10

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

지속 가능한 꾸준함

티스토리 뷰

[Open Source Contribution] Unsloth-zoo Contribution

'Contribution 일지' 카테고리의 다른 글

티스토리툴바