https://github.com/Peterande/D-FINE GitHub - Peterande/D-FINE: D-FINE: Redefine Regression Task of DETRs as Fine-grained Distribution Refinement 💥💥💥D-FINE: Redefine Regression Task of DETRs as Fine-grained Distribution Refinement 💥💥💥 - Peterande/D-FINEgithub.com 논문에서 나온 성능만 봤을때 굉장히 인상적인 검출 모델이다. 무슨 백본을 사용했을까? HGNetV2 를 사용했다고한다. https://huggingface.co/timm/hgnetv2_b6.ssld_stage1_in22k_in1k..
https://github.com/developer0hye/imgdiet GitHub - developer0hye/imgdiet: A Python package for minimizing file size of images with minimal quality lossA Python package for minimizing file size of images with minimal quality loss - developer0hye/imgdietgithub.com 이미지 파일 기반의 데이터셋을 구축해나가다보면 커져가는 사이즈를 감당할 수 없게된다. 특히 Aihub에 고화질 이미지가 초고용량으로 배포되는 경우가 잦다. 이 이미지들로 데이터셋을 구축해나가다보면 데이터셋의 사이즈가 금방 수십기가에 달하게 된다..
https://github.com/developer0hye/docker-cleanup GitHub - developer0hye/docker-cleanup: A lightweight CLI tool to clean all Docker resources – including containers, images, voA lightweight CLI tool to clean all Docker resources – including containers, images, volumes, networks, and build caches – with a single command. - developer0hye/docker-cleanupgithub.com 도커 쓰다보면 이미지도 쌓이고 컨테이너도 쌓이고, 단순히 이미지와 ..
https://developer0hye.tistory.com/812 나의 두 번째 허깅스페이스 스페이스 InternVL2_5-2Bhttps://huggingface.co/spaces/developer0hye/InternVL2_5-2B InternVL2 5-2B - a Hugging Face Space by developer0hyeRunning on Zerohuggingface.co o1에게 이전에 업로드했던 첫 스페이스 https://huggingface.co/spaces/developer0hye/Qwen2-VL-2B-Ideveloper0hye.tistory.com의 자기 복제 https://huggingface.co/spaces/developer0hye/InternVL2_5-8B InternVL2 5..
https://huggingface.co/spaces/developer0hye/InternVL2_5-2B InternVL2 5-2B - a Hugging Face Space by developer0hyeRunning on Zerohuggingface.co o1에게 이전에 업로드했던 첫 스페이스 https://huggingface.co/spaces/developer0hye/Qwen2-VL-2B-Instruct 코드와 https://huggingface.co/Qwen/Qwen2-VL-2B-Instruct 코드를 던져주며 수정해달라고 해줬더니만 원큐에 성공했다.
몇 장 안돌려보고 낸 통계라 이 자료를 너무 맹신하시지는 말고 아 이정도 나오네 감만 익히는 정도로 이 글을 읽어주시길 바랍니다. Task: Single Image Inference/Image CaptioningPrompt: 비밀GPU: 8 A6000 GPUs NVIDIA-SMI 로 보면 아래 처럼 나온다. 8bit으로 로드안했고 bfloat16으로 처리했을때 결과다. Without Flash Attention 2 With Flash Attention 2 48기가 GPU 4대 정도면 Single Image + Text Prompt 케이스는 커버 가능하고, 여기에 weights 8bit 으로 Load하면 메모리 더 감소할테니까 더 낮은 메모리의 GPU로 가용 가능할 것으로 예상됨처리속도는 입력 이미지..
프로젝트 페이지https://internvl.github.io/blog/2024-12-05-InternVL-2.5/ InternVL2.5We introduce InternVL 2.5, an advanced multimodal large language model (MLLM) series that builds upon InternVL 2.0, maintaining its core model architecture while introducing significant enhancements in training and testing strategies as well as data qualitinternvl.github.io 논문https://arxiv.org/pdf/2412.05271 허깅페이스https:/..
Why are Visually-Grounded Language Models Bad at Image Classification? Why are Visually-Grounded Language Models Bad at Image Classification?Image classification is one of the most fundamental capabilities of machine vision intelligence. In this work, we revisit the image classification task using visually-grounded language models (VLMs) such as GPT-4V and LLaVA. We find that existing proprietaa..
2025년 VLM 모델 트렌드는 2개로 예상된다. 1. 스케일링 2. Native Resolution Processing 1. 스케일링 2024년도에 나온 VLM모델의 Vision Encoder 모델들의 사이즈는 대체로 300M~1B정도 였던 거 같다. Qwen2VL 도 Visual Encoder 로 675M 급의 ViT를 사용했고, 2B, 7B, 72B 모델이 있는데 다 Visual Enoder 는 같고 LLM Module만 크기를 냅다 키운식이다. 이런 전략은 LLaVA-NeXT에서도 쓰였다. https://llava-vl.github.io/blog/2024-01-30-llava-next/ LLaVA-NeXT: Improved reasoning, OCR, and world knowledgeLLaVA..
- Total
- Today
- Yesterday
- 위상 정렬 알고리즘
- 조합
- 백트래킹
- 백준 11053
- MOT
- 가장 긴 증가하는 부분 수열
- PyCharm
- 인공지능을 위한 선형대수
- ㅂ
- 순열
- cosine
- Lowest Common Ancestor
- LCA
- 이분탐색
- 자료구조
- 백준
- 백준 1766
- 백준 11437
- 파이참
- C++ Deploy
- 문제집
- FairMOT
- 단축키
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |