티스토리 뷰
20250806기준 벤치마크 상으로 gemini 2.5 pro에 필적하는 Open VLM Intern-S1
developer0hye 2025. 8. 5. 19:35https://huggingface.co/internlm/Intern-S1
internlm/Intern-S1 · Hugging Face
Intern-S1 👋 join us on Discord and WeChat Introduction We introduce Intern-S1, our most advanced open-source multimodal reasoning model to date. Intern-S1 combines strong general-task capabilities with state-of-the-art performance on a wide range of sci
huggingface.co

Vision encoder 만 6B다.
2025년 1월 1일에 예상한 트렌드에 맞게 근래 VLM들은 vision encoder 사이즈부터 웬만한 소형 LLM급으로 커졌다...
https://developer0hye.tistory.com/807
2025년 VLM모델의 Vision Encoder 트렌드 예상(스케일링, Native Resolution Processing)
2025년 VLM 모델 트렌드는 2개로 예상된다. 1. 스케일링 2. Native Resolution Processing 1. 스케일링 2024년도에 나온 VLM모델의 Vision Encoder 모델들의 사이즈는 대체로 300M~1B정도 였던 거 같다. Qwen2VL 도 Vi
developer0hye.tistory.com
학습에 사용된 데이터를 토큰으로 표현하여 가늠은 잘 안되지만 5조개라니 범접불가다 정말
이렇게 했음에도 gemini-2.5 pro 보다는 적은 점수인게 놀랍고, 한 편으로는 저 레벨에서는 1점 1점이 굉장히 큰 차이이겠지만 거의 근접할정도의 모델을 만들어냈다는 기술력이 참 대단하다.

'Deep Learning' 카테고리의 다른 글
| 챗지피티 데스크탑 앱 설치 추천 (3) | 2025.08.30 |
|---|---|
| 미안합니다. (0) | 2025.08.08 |
| gemini api 사용법 (1) | 2025.08.02 |
| 한국어 문장 임베딩(Korean Sentence Embedding) 예시 코드 (5) | 2025.07.30 |
| ai deploy를 위해 onnxruntime-directml 를 써보아요 (0) | 2025.07.09 |
- Total
- Today
- Yesterday
- FairMOT
- 이분탐색
- ㅂ
- 위상 정렬 알고리즘
- 문제집
- 백준 11437
- 백준 11053
- LCA
- C++ Deploy
- 가장 긴 증가하는 부분 수열
- Lowest Common Ancestor
- PyCharm
- 자료구조
- 백준 1766
- cosine
- 인공지능을 위한 선형대수
- MOT
- 백준
- 단축키
- 조합
- 순열
- 백트래킹
- 파이참
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
