티스토리 뷰

2025년 VLM 모델 트렌드는 2개로 예상된다.

 

1. 스케일링

 

2. Native Resolution Processing

 


1. 스케일링

 

2024년도에 나온 VLM모델의 Vision Encoder 모델들의 사이즈는 대체로 300M~1B정도 였던 거 같다.

 

Qwen2VL 도 Visual Encoder 로 675M 급의 ViT를 사용했고, 2B, 7B, 72B 모델이 있는데 다 Visual Enoder 는 같고 LLM Module만 크기를 냅다 키운식이다.

 

 

이런 전략은 LLaVA-NeXT에서도 쓰였다.

 

https://llava-vl.github.io/blog/2024-01-30-llava-next/

 

LLaVA-NeXT: Improved reasoning, OCR, and world knowledge

LLaVA team presents LLaVA-NeXT, with improved reasoning, OCR, and world knowledge. LLaVA-NeXT even exceeds Gemini Pro on several benchmarks.

llava-vl.github.io

 

 

다른 VLM 모델도 CLIP-L 이나 vit-so400m 모델을 많이 썼던 것으로 기억한다.

 

2025년에는 Vision Encoder의 크기가 1B 이상인 VLM 모델이 많아질 거 같다.

 

자연어를 무시하는 발언은 아니고 내 생각에는 Vision Task들이 더 많은 파라미터를 요구할 거 같다. "사람"이라는 텍스트를 표현하기 위한 피쳐가 Vision Task에서 OCR Task 상황이라고 보면,  "사람"을 그대로 이미지로 옮겨놨을때 "사람"이라는 텍스트의 크기, 색상, 각도, 폰트 등 엄청나게 다양하게 표현된다. 근데 이제 진짜 "사람"을 텍스트가 아닌 이미지로 표현할때는 사람의 키, 자세, 의류, 피부톤, 배경 등등 상상할수도 없는 다양한 가짓수의 패턴으로 표현될 수 있다.

 

근데 지금까지 공개된 Open VLM 들의 Visual Encoder 는 이만한 다양성을 커버할 수 있는 만큼의 파라미터를 가졌는지 생각해보면 그렇지는 않은 거 같다.

 

Multimodal Autoregressive Pre-training of Large Vision Encoders 라는 논문이 Apple에서 나왔다.

 

 

L을 넘어 H, 1B, 3B까지 실험한 것을 알 수 있다.

 

https://github.com/apple/ml-aim/blob/main/README.md#pre-trained-checkpoints

 

ml-aim/README.md at main · apple/ml-aim

This repository provides the code and model checkpoints for AIMv1 and AIMv2 research projects. - apple/ml-aim

github.com

 

weights 까지도 공개했다.

 

이걸 보며 2025년에 공개될 10B 미만 사이즈의 VLM 모델들이 더 큰 사이즈의 Vision Encoder를 탑재한채로 공개되지 않을까 예상하고있다.

 

그리고 최근에 공개된 InternVL2.5에서 6B 크기의 Visual Enocder 모델을 사용함을 보였다.

https://internvl.github.io/blog/2024-12-05-InternVL-2.5/

 


2. Native Resolution Processing

이전에는 연산량 때문에 Image 를 특정 사이즈로 Resize 하고 Vision Encoder 에 입력하는 방식이 주류였다면, 이제는 우선 성능부터 확보하고 가능성을 보여주기 위해서 최대한 Resize 로 인해 다운샘플링 되어 손실되는 정보량을 줄이고 Native Resoultion을 최대한 유지한채로 Vision Encoder 에 넣는 방식이 주류가 될 거 같다. 혹은 Resolution을 유지하기 보다 아무튼 다운샘플링으로 인한 손실을 최소화한채로 입력 이미지를 전처리하는 방식이 주류가 될 거 같다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함