Why are Visually-Grounded Language Models Bad at Image Classification? Why are Visually-Grounded Language Models Bad at Image Classification?Image classification is one of the most fundamental capabilities of machine vision intelligence. In this work, we revisit the image classification task using visually-grounded language models (VLMs) such as GPT-4V and LLaVA. We find that existing proprietaa..
2025년 VLM 모델 트렌드는 2개로 예상된다. 1. 스케일링 2. Native Resolution Processing 1. 스케일링 2024년도에 나온 VLM모델의 Vision Encoder 모델들의 사이즈는 대체로 300M~1B정도 였던 거 같다. Qwen2VL 도 Visual Encoder 로 675M 급의 ViT를 사용했고, 2B, 7B, 72B 모델이 있는데 다 Visual Enoder 는 같고 LLM Module만 크기를 냅다 키운식이다. 이런 전략은 LLaVA-NeXT에서도 쓰였다. https://llava-vl.github.io/blog/2024-01-30-llava-next/ LLaVA-NeXT: Improved reasoning, OCR, and world knowledgeLLaVA..
워 노스페이스 입던 내가허깅페이스 첫 스페이스 개설 https://huggingface.co/spaces/KingNish/Qwen2-VL-7B Qwen2-VL-7B - a Hugging Face Space by KingNishRunning on Zerohuggingface.co 위 스페이스를 그대로 베꼈다. 7B를 2B로 변경했고 이미지 업로드 하면 업로드한 이미지가 브라우저 창에 출력되게 수정했다. 위에 거는 업로드하면 업로드한 이미지 이름만 출력되고 이미지는 안뜬다. https://huggingface.co/spaces/developer0hye/Qwen2-VL-2B-Instruct Qwen2 VL 2B Instruct - a Hugging Face Space by developer0hyeRunnin..
import torchimport timmif __name__ == '__main__': dinov2_model_wo_reg = timm.create_model('vit_base_patch14_dinov2.lvd142m', pretrained=True) dinov2_model_w_reg = timm.create_model('vit_base_patch14_reg4_dinov2.lvd142m', pretrained=True) input = torch.randn(1, 3, 518, 518) output_wo_reg = dinov2_model_wo_reg.forward_features(input) output_w_reg = dinov2_model_w_reg.forward_feature..
제곧내
FROM CLIP TO DINO: VISUAL ENCODERS SHOUT IN MULTI-MODAL LARGE LANGUAGE MODELS CLIP 의 서로 다른 블락에서 나오는 피쳐들을 잘 Ensemble 해주고, DNIOv2 의 서로 다른 블락에서 나오는 피쳐들을 잘 Ensemble해주고 Concat 해주고 Embedding 해준 피쳐들을 Text Embeddings이랑 잘 LLM 에 넣어주면 VLM의 성능이 올라간다고한다. w/ MFM 은 하나의 모델에서 여러 블락에서 나온 피쳐를 Ensemble 해줬을때의 결과, 같은 모델에서 서로 다른 레이어에서 나오는 피쳐들을 활용하는거라 Ensemble이라고 하긴 뭐하긴하지만 merge보단 ensemble이라는 표현이 더 맞긴한 거 같아서 블로그에 정리..
또 50달러를 추가 결제했다... 지금까지 총 150달러를 태웠다. 슬슬 부담된다. 네트워크 스토리지 200기가바이트에 4090 1대로 주로 학습중이다... 참고로 학습중인 모델은 Qwen2vl7b다. 입력 이미지 사이즈에 대한 튜닝을 통해 메모리를 조금이라도 줄여줬더니만 배치 사이즈1로 간신히 돌아간다. 지금 학습 이미지가 300장 이정도 밖에 안되는데 꽤나 미친 성능을 보여준다. 한 1만장, 5만장, 10만장 정도 되면 어느정도로 성능이 나올지 너무 궁금하다. 아직까지는 간혹다가 LLM특유의 할루시네이션 마냥 이상한 값을 반환한다거나 특정 값을 계속해서 반환하는 문제가 있다. 나는 OCR Task를 수행하도록 파인튜닝 시켜보고 있는데 예를 들면 아래 처럼 값이 나올때가 있다. 파인튜닝을 시키는 족족..
https://developer0hye.tistory.com/792 unsloth/LaTeX_OCR 로 5 에폭 파인튜닝 시킨 Qwen2VL7b 또한 아쉬울 따름https://developer0hye.tistory.com/789 unsloth/LaTeX_OCR 로 1 에폭 파인튜닝 시킨 Qwen2VL7b 는 아쉬울 따름https://colab.research.google.com/drive/1whHb54GNZMrNxIsi2wm2EY_-Pvo2QyKh?usp=sharing Qwen2 Vision Finetuning Unsloth - Maths OCR.ipynbdeveloper0hye.tistory.com ㅎㅎㅎㅎ 저번 글에서 썼다싶이 이번엔 r값을 올려서 학습시켜봤다. 이게 정답이였을까? 아니다!!! 물론 ..
https://developer0hye.tistory.com/789 unsloth/LaTeX_OCR 로 1 에폭 파인튜닝 시킨 Qwen2VL7b 는 아쉬울 따름https://colab.research.google.com/drive/1whHb54GNZMrNxIsi2wm2EY_-Pvo2QyKh?usp=sharing Qwen2 Vision Finetuning Unsloth - Maths OCR.ipynbColab notebookcolab.research.google.com 를 따라서 runpod 을 이용해서 VLM인 Qwen2vl7b를 파인튜닝 시켜developer0hye.tistory.com Loss 는 0.2대까지 감소했다.{'loss': 1.9224, 'grad_norm': 0.7360253930091..
- Total
- Today
- Yesterday
- 순열
- LCA
- cosine
- MOT
- 백준 11053
- FairMOT
- 자료구조
- 백준 1766
- PyCharm
- 백준
- 인공지능을 위한 선형대수
- Lowest Common Ancestor
- 백준 11437
- 단축키
- 가장 긴 증가하는 부분 수열
- 이분탐색
- 조합
- 파이참
- 위상 정렬 알고리즘
- C++ Deploy
- 백트래킹
- ㅂ
- 문제집
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |

