티스토리 뷰

https://developer0hye.tistory.com/789

 

unsloth/LaTeX_OCR 로 1 에폭 파인튜닝 시킨 Qwen2VL7b 는 아쉬울 따름

https://colab.research.google.com/drive/1whHb54GNZMrNxIsi2wm2EY_-Pvo2QyKh?usp=sharing Qwen2 Vision Finetuning Unsloth - Maths OCR.ipynbColab notebookcolab.research.google.com 를 따라서 runpod 을 이용해서 VLM인 Qwen2vl7b를 파인튜닝 시켜

developer0hye.tistory.com

 

 

Loss 는 0.2대까지 감소했다.

{'loss': 1.9224, 'grad_norm': 0.7360253930091858, 'learning_rate': 4e-05, 'epoch': 0.0}
{'loss': 1.9949, 'grad_norm': 0.7465695738792419, 'learning_rate': 8e-05, 'epoch': 0.0}
{'loss': 2.1074, 'grad_norm': 0.7999386191368103, 'learning_rate': 0.00012, 'epoch': 0.0}
{'loss': 1.9023, 'grad_norm': 0.8140863180160522, 'learning_rate': 0.00016, 'epoch': 0.0}
{'loss': 1.7065, 'grad_norm': 0.7455458045005798, 'learning_rate': 0.0002, 'epoch': 0.0}
...
{'loss': 0.263, 'grad_norm': 1.2594029903411865, 'learning_rate': 4.660918200885575e-08, 'epoch': 5.0}
{'loss': 0.2681, 'grad_norm': 1.1657248735427856, 'learning_rate': 3.7287345607084596e-08, 'epoch': 5.0}
{'loss': 0.2459, 'grad_norm': 1.0930211544036865, 'learning_rate': 2.7965509205313447e-08, 'epoch': 5.0}
{'loss': 0.2132, 'grad_norm': 0.96867436170578, 'learning_rate': 1.8643672803542298e-08, 'epoch': 5.0}
{'loss': 0.2331, 'grad_norm': 1.1571691036224365, 'learning_rate': 9.321836401771149e-09, 'epoch': 5.0}
{'loss': 0.2352, 'grad_norm': 1.1468124389648438, 'learning_rate': 0.0, 'epoch': 5.0}

 

Image

Label

H ^ { \\prime } = \\beta N \\int d \\lambda \\biggl \\{ \\frac { 1 } { 2 \\beta ^ { 2 } N ^ { 2 } } \\partial _ { \\lambda } \\zeta ^ { \\dagger } \\partial _ { \\lambda } \\zeta + V ( \\lambda ) \\zeta ^ { \\dagger } \\zeta \\biggr \\} \\ .

 

 

학습 전 추론 결과

$$\mathrm { ~ n a ~ }$$<|im_end|>

1 Epoch 학습 이후 추론 결과

\left( \begin{array} { c c } { 1 } & { 0 } \\ { 0 } & { 1 } \\ \end{array} \right) \left( \begin{array} { c c } { 1 } & { 0 } \\ { 0 } & { 1 } \\ \end{array} \right) \left( \begin{array} { c c } { 1 } & { 0 } \\ { 0 } & { 1 } \\ \end{array} \right) \left( \begin{array}

 

5 Epochs 학습 이후 결과

\frac { 1 } { 2 } \int d ^ { 4 } x \epsilon ^ { \mu \nu \rho \sigma } \partial _ { \mu } { \cal { E } } _ { \nu } ^ { a } ( x ) A _ { \rho } ^ { a } ( x ) \partial _ { \sigma } \phi ( x ) \sqrt { g } = i \mu ^ { 2 } \phi ( x )<|im_end|>

 

음 아직 많이 멀었다.

 

r값을 64 로 올려서 해봐야겠다.

 

근데 생각해보니 그냥 OCR도 아니고 Latex 문법을 VLM이 이해를 해야한다는 건데 좀 어려운 태스크여서 학습이 안되는 거 같기도하다. r 64로 올려보고 한 번 simple task로 테스트 해봐야겠다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함