티스토리 뷰
프로젝트 페이지
https://internvl.github.io/blog/2024-12-05-InternVL-2.5/
InternVL2.5
We introduce InternVL 2.5, an advanced multimodal large language model (MLLM) series that builds upon InternVL 2.0, maintaining its core model architecture while introducing significant enhancements in training and testing strategies as well as data qualit
internvl.github.io
논문
https://arxiv.org/pdf/2412.05271
허깅페이스
https://huggingface.co/collections/OpenGVLab/internvl25-673e1019b66e2218f68d7c1c
InternVL2.5 - a OpenGVLab Collection
OpenGVLab 's Collections
huggingface.co
허깅페이스 데모 - 20250101 기준 InternVL2.5-78B 로 세팅됨
https://huggingface.co/spaces/OpenGVLab/InternVL
InternVL - a Hugging Face Space by OpenGVLab
huggingface.co

Qwen2VL 보다 성능이 좋다고 한다.
또 눈여겨볼점은 2B, 7B, 72B만 존재하는 Qwen2VL과는 다르게 1B, 2B, 4B, 8B, 26B, 38B, 78B 등 다양한 사이즈의 모델을 제공하고 있다.
어떤 사이즈의 모델을 사람들은 많이 찾을까?







20250101 기준으로는 26B 모델의 다운로드 횟수가 가장 높다. 그리고는 8B가 두 번째로 높다.
아직 InternVL2.5 는 직접 사용량을 측정해보진 않았는데 8B가 높은 이유는 24기가 GPU 한대로 돌아가면서 어느정도 성능이 보장된 affordable model...?이라 그런 게 아닌가 싶고 26B 정도면 24기가 GPU 3~4대 정도면 돌아가는데 성능이 Claude 3.5 Sonnet 급이라니까 관심을 많이 받는 게 아닌가 싶다.
'Deep Learning' 카테고리의 다른 글
나의 두 번째 허깅페이스 스페이스 InternVL2_5-2B (0) | 2025.01.06 |
---|---|
InternVL2.5 78B 메모리 사용량은 얼마나 되고 인퍼런스 타임은 어느정도일까 (2) | 2025.01.04 |
Why are Visually-Grounded Language Models Bad at Image Classification? 왜 VLM 은 이미지 분류를 잘 못하는가? (0) | 2025.01.01 |
2025년 VLM모델의 Vision Encoder 트렌드 예상(스케일링, Native Resolution Processing) (0) | 2025.01.01 |
huggingface 첫 space 개설 (1) | 2024.12.27 |
- Total
- Today
- Yesterday
- 위상 정렬 알고리즘
- 백준 11437
- PyCharm
- 파이참
- C++ Deploy
- Lowest Common Ancestor
- 가장 긴 증가하는 부분 수열
- 백트래킹
- ㅂ
- 백준
- MOT
- cosine
- 문제집
- 인공지능을 위한 선형대수
- 자료구조
- 백준 1766
- 백준 11053
- LCA
- 순열
- FairMOT
- 이분탐색
- 조합
- 단축키
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |