티스토리 뷰
2025년 VLM모델의 Vision Encoder 트렌드 예상(스케일링, Native Resolution Processing)
developer0hye 2025. 1. 1. 14:372025년 VLM 모델 트렌드는 2개로 예상된다.
1. 스케일링
2. Native Resolution Processing
1. 스케일링
2024년도에 나온 VLM모델의 Vision Encoder 모델들의 사이즈는 대체로 300M~1B정도 였던 거 같다.
Qwen2VL 도 Visual Encoder 로 675M 급의 ViT를 사용했고, 2B, 7B, 72B 모델이 있는데 다 Visual Enoder 는 같고 LLM Module만 크기를 냅다 키운식이다.
이런 전략은 LLaVA-NeXT에서도 쓰였다.
https://llava-vl.github.io/blog/2024-01-30-llava-next/
다른 VLM 모델도 CLIP-L 이나 vit-so400m 모델을 많이 썼던 것으로 기억한다.
2025년에는 Vision Encoder의 크기가 1B 이상인 VLM 모델이 많아질 거 같다.
자연어를 무시하는 발언은 아니고 내 생각에는 Vision Task들이 더 많은 파라미터를 요구할 거 같다. "사람"이라는 텍스트를 표현하기 위한 피쳐가 Vision Task에서 OCR Task 상황이라고 보면, "사람"을 그대로 이미지로 옮겨놨을때 "사람"이라는 텍스트의 크기, 색상, 각도, 폰트 등 엄청나게 다양하게 표현된다. 근데 이제 진짜 "사람"을 텍스트가 아닌 이미지로 표현할때는 사람의 키, 자세, 의류, 피부톤, 배경 등등 상상할수도 없는 다양한 가짓수의 패턴으로 표현될 수 있다.
근데 지금까지 공개된 Open VLM 들의 Visual Encoder 는 이만한 다양성을 커버할 수 있는 만큼의 파라미터를 가졌는지 생각해보면 그렇지는 않은 거 같다.
Multimodal Autoregressive Pre-training of Large Vision Encoders 라는 논문이 Apple에서 나왔다.
L을 넘어 H, 1B, 3B까지 실험한 것을 알 수 있다.
https://github.com/apple/ml-aim/blob/main/README.md#pre-trained-checkpoints
weights 까지도 공개했다.
이걸 보며 2025년에 공개될 10B 미만 사이즈의 VLM 모델들이 더 큰 사이즈의 Vision Encoder를 탑재한채로 공개되지 않을까 예상하고있다.
그리고 최근에 공개된 InternVL2.5에서 6B 크기의 Visual Enocder 모델을 사용함을 보였다.
https://internvl.github.io/blog/2024-12-05-InternVL-2.5/
2. Native Resolution Processing
이전에는 연산량 때문에 Image 를 특정 사이즈로 Resize 하고 Vision Encoder 에 입력하는 방식이 주류였다면, 이제는 우선 성능부터 확보하고 가능성을 보여주기 위해서 최대한 Resize 로 인해 다운샘플링 되어 손실되는 정보량을 줄이고 Native Resoultion을 최대한 유지한채로 Vision Encoder 에 넣는 방식이 주류가 될 거 같다. 혹은 Resolution을 유지하기 보다 아무튼 다운샘플링으로 인한 손실을 최소화한채로 입력 이미지를 전처리하는 방식이 주류가 될 거 같다.
'Deep Learning' 카테고리의 다른 글
2025년 1월1일 기준 관심가져보면 좋을 거 같은 VLM InternVL2.5 (0) | 2025.01.01 |
---|---|
Why are Visually-Grounded Language Models Bad at Image Classification? 왜 VLM 은 이미지 분류를 잘 못하는가? (0) | 2025.01.01 |
huggingface 첫 space 개설 (1) | 2024.12.27 |
register 기법 적용된 ViT 사용시 유의 사항 (1) | 2024.12.15 |
그냥 드는 의문 SWIN은 왜 CLIP 모델이 없을까 (1) | 2024.12.15 |
- Total
- Today
- Yesterday
- 조합
- 백준
- 이분탐색
- 가장 긴 증가하는 부분 수열
- 백준 11437
- 인공지능을 위한 선형대수
- 파이참
- MOT
- LCA
- 위상 정렬 알고리즘
- FairMOT
- 문제집
- cosine
- 자료구조
- Lowest Common Ancestor
- ㅂ
- 백준 1766
- 백트래킹
- PyCharm
- 단축키
- C++ Deploy
- 순열
- 백준 11053
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |