티스토리 뷰

https://huggingface.co/internlm/Intern-S1

 

internlm/Intern-S1 · Hugging Face

Intern-S1 👋 join us on Discord and WeChat Introduction We introduce Intern-S1, our most advanced open-source multimodal reasoning model to date. Intern-S1 combines strong general-task capabilities with state-of-the-art performance on a wide range of sci

huggingface.co

 

 

Vision encoder 만 6B다.

 

2025년 1월 1일에 예상한 트렌드에 맞게 근래 VLM들은 vision encoder 사이즈부터 웬만한 소형 LLM급으로 커졌다...

 

https://developer0hye.tistory.com/807

 

2025년 VLM모델의 Vision Encoder 트렌드 예상(스케일링, Native Resolution Processing)

2025년 VLM 모델 트렌드는 2개로 예상된다. 1. 스케일링 2. Native Resolution Processing 1. 스케일링 2024년도에 나온 VLM모델의 Vision Encoder 모델들의 사이즈는 대체로 300M~1B정도 였던 거 같다. Qwen2VL 도 Vi

developer0hye.tistory.com

 

학습에 사용된 데이터를 토큰으로 표현하여 가늠은 잘 안되지만 5조개라니 범접불가다 정말

 

이렇게 했음에도  gemini-2.5 pro 보다는 적은 점수인게 놀랍고, 한 편으로는 저 레벨에서는 1점 1점이 굉장히 큰 차이이겠지만 거의 근접할정도의 모델을 만들어냈다는 기술력이 참 대단하다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/12   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
글 보관함