FROM CLIP TO DINO: VISUAL ENCODERS SHOUT IN MULTI-MODAL LARGE LANGUAGE MODELS CLIP 의 서로 다른 블락에서 나오는 피쳐들을 잘 Ensemble 해주고, DNIOv2 의 서로 다른 블락에서 나오는 피쳐들을 잘 Ensemble해주고 Concat 해주고 Embedding 해준 피쳐들을 Text Embeddings이랑 잘 LLM 에 넣어주면 VLM의 성능이 올라간다고한다. w/ MFM 은 하나의 모델에서 여러 블락에서 나온 피쳐를 Ensemble 해줬을때의 결과, 같은 모델에서 서로 다른 레이어에서 나오는 피쳐들을 활용하는거라 Ensemble이라고 하긴 뭐하긴하지만 merge보단 ensemble이라는 표현이 더 맞긴한 거 같아서 블로그에 정리..
https://github.com/unslothai/unsloth-zoo/pull/21 Add `formatting_func` to Enable Lazy Data Loading in `UnslothVisionDataCollator` by developer0hye · Pull Request #21 · unslothOverview This PR introduces a new formatting_func parameter to the UnslothVisionDataCollator, allowing for dynamic formatting of examples during data collation. This enhancement addresses a critica...github.com unsloth로 qwe..
- Total
- Today
- Yesterday
- cosine
- 순열
- C++ Deploy
- Lowest Common Ancestor
- 백준 1766
- 조합
- 백준 11053
- MOT
- 백준
- PyCharm
- LCA
- FairMOT
- 가장 긴 증가하는 부분 수열
- ㅂ
- 백트래킹
- 단축키
- 파이참
- 위상 정렬 알고리즘
- 이분탐색
- 백준 11437
- 자료구조
- 인공지능을 위한 선형대수
- 문제집
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |