티스토리 뷰
https://developer0hye.tistory.com/789
Loss 는 0.2대까지 감소했다.
{'loss': 1.9224, 'grad_norm': 0.7360253930091858, 'learning_rate': 4e-05, 'epoch': 0.0}
{'loss': 1.9949, 'grad_norm': 0.7465695738792419, 'learning_rate': 8e-05, 'epoch': 0.0}
{'loss': 2.1074, 'grad_norm': 0.7999386191368103, 'learning_rate': 0.00012, 'epoch': 0.0}
{'loss': 1.9023, 'grad_norm': 0.8140863180160522, 'learning_rate': 0.00016, 'epoch': 0.0}
{'loss': 1.7065, 'grad_norm': 0.7455458045005798, 'learning_rate': 0.0002, 'epoch': 0.0}
...
{'loss': 0.263, 'grad_norm': 1.2594029903411865, 'learning_rate': 4.660918200885575e-08, 'epoch': 5.0}
{'loss': 0.2681, 'grad_norm': 1.1657248735427856, 'learning_rate': 3.7287345607084596e-08, 'epoch': 5.0}
{'loss': 0.2459, 'grad_norm': 1.0930211544036865, 'learning_rate': 2.7965509205313447e-08, 'epoch': 5.0}
{'loss': 0.2132, 'grad_norm': 0.96867436170578, 'learning_rate': 1.8643672803542298e-08, 'epoch': 5.0}
{'loss': 0.2331, 'grad_norm': 1.1571691036224365, 'learning_rate': 9.321836401771149e-09, 'epoch': 5.0}
{'loss': 0.2352, 'grad_norm': 1.1468124389648438, 'learning_rate': 0.0, 'epoch': 5.0}
Image
Label
H ^ { \\prime } = \\beta N \\int d \\lambda \\biggl \\{ \\frac { 1 } { 2 \\beta ^ { 2 } N ^ { 2 } } \\partial _ { \\lambda } \\zeta ^ { \\dagger } \\partial _ { \\lambda } \\zeta + V ( \\lambda ) \\zeta ^ { \\dagger } \\zeta \\biggr \\} \\ .
학습 전 추론 결과
$$\mathrm { ~ n a ~ }$$<|im_end|>
1 Epoch 학습 이후 추론 결과
\left( \begin{array} { c c } { 1 } & { 0 } \\ { 0 } & { 1 } \\ \end{array} \right) \left( \begin{array} { c c } { 1 } & { 0 } \\ { 0 } & { 1 } \\ \end{array} \right) \left( \begin{array} { c c } { 1 } & { 0 } \\ { 0 } & { 1 } \\ \end{array} \right) \left( \begin{array}
5 Epochs 학습 이후 결과
\frac { 1 } { 2 } \int d ^ { 4 } x \epsilon ^ { \mu \nu \rho \sigma } \partial _ { \mu } { \cal { E } } _ { \nu } ^ { a } ( x ) A _ { \rho } ^ { a } ( x ) \partial _ { \sigma } \phi ( x ) \sqrt { g } = i \mu ^ { 2 } \phi ( x )<|im_end|>
음 아직 많이 멀었다.
r값을 64 로 올려서 해봐야겠다.
근데 생각해보니 그냥 OCR도 아니고 Latex 문법을 VLM이 이해를 해야한다는 건데 좀 어려운 태스크여서 학습이 안되는 거 같기도하다. r 64로 올려보고 한 번 simple task로 테스트 해봐야겠다.
'Deep Learning' 카테고리의 다른 글
runpod 또 추가 결제 가즈앗!!! 장시간 학습시키니 비용이 쭉쭉 나간다. (0) | 2024.12.04 |
---|---|
Qwenvl2 7b 파인튜닝 실마리를 찾다!!! (0) | 2024.12.02 |
unsloth/LaTeX_OCR 로 1 에폭 파인튜닝 시킨 Qwen2VL7b 는 아쉬울 따름 (0) | 2024.11.30 |
unsloth/LaTeX_OCR 데이터셋 주의사항...? (1) | 2024.11.30 |
Hugging Face 이미지, 텍스트 멀티모달 OCR 데이터셋 업로드 하루종일 삽질 (0) | 2024.11.27 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 백준
- 위상 정렬 알고리즘
- ㅂ
- 이분탐색
- 자료구조
- LCA
- 백준 11437
- cosine
- 백준 1766
- 순열
- 단축키
- C++ Deploy
- Lowest Common Ancestor
- 가장 긴 증가하는 부분 수열
- 백트래킹
- MOT
- PyCharm
- 파이참
- 문제집
- FairMOT
- 인공지능을 위한 선형대수
- 조합
- 백준 11053
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함