티스토리 뷰

Why are Visually-Grounded Language Models Bad at Image Classification?

 

Why are Visually-Grounded Language Models Bad at Image Classification?

Image classification is one of the most fundamental capabilities of machine vision intelligence. In this work, we revisit the image classification task using visually-grounded language models (VLMs) such as GPT-4V and LLaVA. We find that existing proprieta

arxiv.org

 

VLM 이 Computer Vision의 근본 Task 인 Image Classification 을 왜 잘 못하는지를 분석한 논문

 

논문에 나온 결론은 Classificaiton 위주의 학습 데이터를 구축하고 파인튜닝해주면 VLM도 잘할 수 있다고함.

 

 

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함