티스토리 뷰

심심하면 timm 프로젝트에 어떤 모델들 추가되는지 확인하는데 며칠전에 보다가 vit_so400m~ 이런 모델이 있는 걸 알게됐다.

 

https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/vision_transformer.py

 

pytorch-image-models/timm/models/vision_transformer.py at main · huggingface/pytorch-image-models

The largest collection of PyTorch image encoders / backbones. Including train, eval, inference, export scripts, and pretrained weights -- ResNet, ResNeXT, EfficientNet, NFNet, Vision Transformer (V...

github.com

 

 

찾아보니 Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design  이 논문에서 나온거더라

 

구글 딥마인드에서 연구됐다.

 

제목이 재밌다.

 

제목에서 알 수 있듯이 ViT Scaling 을 잘해보자! 가 메인 주제인 거 같다.

 

내가 관심있는 부분은 그냥 이걸 가져다 써보는 거라 논문은 대충 읽고 Claude한테 요약해달라고 하고 쓱 읽어보기만 했다. 

 

 

Image Classification Task로 보자면 Scaling 시 1. MLP dimension, 2. Depth, 3. Width 순으로 Weight을 주는 게 좋다고 한다.

 

그래서 잘 찾은 Scaling 방법으로 400M 사이즈 모델(=SoViT-400m/14, timm에서는 vit_so400m~) 을 만든 다음 기존에 사이즈 비슷한 ViT-L(303M)과 사이즈가 훨씬 큰 ViT-G(1882M)과 비교해보니까 좋은 성능을 보였다고한다.

다양한 Image Classification Dataset에서 좋은 성능을 보이고 있다. 근데 Birds 데이터셋에서는 L보다 성능이 훨씬 낮다.

 

다른 Task에서도 400M모델의 성능을 기존 ViT-LViT-g(ViT-G랑 다름! 사이즈는 1011M) 랑 비교해봤다고 한다,.

https://www.v7labs.com/blog/panoptic-segmentation-guide

Image Classification Task를 중점적으로 찾아진 Scaling 법칙을 따랐다보니 Panoptic Segmentation Task에서는 -L보다는 좋지만 -g 보다는 성능이 크게 낮다.

 

또 다른 Task들에 대해서도 실험해봤다고 한다.

ViT-g(1011M) 랑 엇 비슷한 수준을 보였다고한다.

 

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함