https://github.com/Peterande/D-FINE GitHub - Peterande/D-FINE: D-FINE: Redefine Regression Task of DETRs as Fine-grained Distribution Refinement 💥💥💥D-FINE: Redefine Regression Task of DETRs as Fine-grained Distribution Refinement 💥💥💥 - Peterande/D-FINEgithub.com 논문에서 나온 성능만 봤을때 굉장히 인상적인 검출 모델이다. 무슨 백본을 사용했을까? HGNetV2 를 사용했다고한다. https://huggingface.co/timm/hgnetv2_b6.ssld_stage1_in22k_in1k..
https://developer0hye.tistory.com/812 나의 두 번째 허깅스페이스 스페이스 InternVL2_5-2Bhttps://huggingface.co/spaces/developer0hye/InternVL2_5-2B InternVL2 5-2B - a Hugging Face Space by developer0hyeRunning on Zerohuggingface.co o1에게 이전에 업로드했던 첫 스페이스 https://huggingface.co/spaces/developer0hye/Qwen2-VL-2B-Ideveloper0hye.tistory.com의 자기 복제 https://huggingface.co/spaces/developer0hye/InternVL2_5-8B InternVL2 5..
https://huggingface.co/spaces/developer0hye/InternVL2_5-2B InternVL2 5-2B - a Hugging Face Space by developer0hyeRunning on Zerohuggingface.co o1에게 이전에 업로드했던 첫 스페이스 https://huggingface.co/spaces/developer0hye/Qwen2-VL-2B-Instruct 코드와 https://huggingface.co/Qwen/Qwen2-VL-2B-Instruct 코드를 던져주며 수정해달라고 해줬더니만 원큐에 성공했다.
몇 장 안돌려보고 낸 통계라 이 자료를 너무 맹신하시지는 말고 아 이정도 나오네 감만 익히는 정도로 이 글을 읽어주시길 바랍니다. Task: Single Image Inference/Image CaptioningPrompt: 비밀GPU: 8 A6000 GPUs NVIDIA-SMI 로 보면 아래 처럼 나온다. 8bit으로 로드안했고 bfloat16으로 처리했을때 결과다. Without Flash Attention 2 With Flash Attention 2 48기가 GPU 4대 정도면 Single Image + Text Prompt 케이스는 커버 가능하고, 여기에 weights 8bit 으로 Load하면 메모리 더 감소할테니까 더 낮은 메모리의 GPU로 가용 가능할 것으로 예상됨처리속도는 입력 이미지..
프로젝트 페이지https://internvl.github.io/blog/2024-12-05-InternVL-2.5/ InternVL2.5We introduce InternVL 2.5, an advanced multimodal large language model (MLLM) series that builds upon InternVL 2.0, maintaining its core model architecture while introducing significant enhancements in training and testing strategies as well as data qualitinternvl.github.io 논문https://arxiv.org/pdf/2412.05271 허깅페이스https:/..
Why are Visually-Grounded Language Models Bad at Image Classification? Why are Visually-Grounded Language Models Bad at Image Classification?Image classification is one of the most fundamental capabilities of machine vision intelligence. In this work, we revisit the image classification task using visually-grounded language models (VLMs) such as GPT-4V and LLaVA. We find that existing proprietaa..
2025년 VLM 모델 트렌드는 2개로 예상된다. 1. 스케일링 2. Native Resolution Processing 1. 스케일링 2024년도에 나온 VLM모델의 Vision Encoder 모델들의 사이즈는 대체로 300M~1B정도 였던 거 같다. Qwen2VL 도 Visual Encoder 로 675M 급의 ViT를 사용했고, 2B, 7B, 72B 모델이 있는데 다 Visual Enoder 는 같고 LLM Module만 크기를 냅다 키운식이다. 이런 전략은 LLaVA-NeXT에서도 쓰였다. https://llava-vl.github.io/blog/2024-01-30-llava-next/ LLaVA-NeXT: Improved reasoning, OCR, and world knowledgeLLaVA..
워 노스페이스 입던 내가허깅페이스 첫 스페이스 개설 https://huggingface.co/spaces/KingNish/Qwen2-VL-7B Qwen2-VL-7B - a Hugging Face Space by KingNishRunning on Zerohuggingface.co 위 스페이스를 그대로 베꼈다. 7B를 2B로 변경했고 이미지 업로드 하면 업로드한 이미지가 브라우저 창에 출력되게 수정했다. 위에 거는 업로드하면 업로드한 이미지 이름만 출력되고 이미지는 안뜬다. https://huggingface.co/spaces/developer0hye/Qwen2-VL-2B-Instruct Qwen2 VL 2B Instruct - a Hugging Face Space by developer0hyeRunnin..
import torchimport timmif __name__ == '__main__': dinov2_model_wo_reg = timm.create_model('vit_base_patch14_dinov2.lvd142m', pretrained=True) dinov2_model_w_reg = timm.create_model('vit_base_patch14_reg4_dinov2.lvd142m', pretrained=True) input = torch.randn(1, 3, 518, 518) output_wo_reg = dinov2_model_wo_reg.forward_features(input) output_w_reg = dinov2_model_w_reg.forward_feature..
제곧내
- Total
- Today
- Yesterday
- 순열
- PyCharm
- 파이참
- 백준
- 이분탐색
- ㅂ
- 인공지능을 위한 선형대수
- 단축키
- FairMOT
- LCA
- 자료구조
- 문제집
- 백준 1766
- 위상 정렬 알고리즘
- 조합
- Lowest Common Ancestor
- C++ Deploy
- 백준 11437
- 가장 긴 증가하는 부분 수열
- 백준 11053
- cosine
- MOT
- 백트래킹
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |