티스토리 뷰
전반적인 데이터셋에서 높은 성능을 보이는 첫 Realtime End2End Transformer 기반 Object Detection 모델이라 할 수 있는 RF-DETR 논문을 읽어봤다.
실험을 굉장히 많이 했다는 게 느껴지는 논문이다.
회사에서 많이 해왔던 일이라면 공개되는 최신 vision foundation backbone networks들을 우리의 기존 모델의 backbone을 교체하여 성능 변화를 보는 일인데, 이 논문에서 object detection 모델을 대상으로 비교적 최신 vision backbone networks라 할 수 있는 SigLIPv2, SAM2 네트워크에 대해 실험을 해놨다.

실험 결과는 논문에서 Table 6에서 확인할 수 있다. 결론은 DINOv2가 좋다이다. SigLIPv2는 patch size가 32라 그런지 AP-S 가 다른 네트워크들에 비하여 굉장히 낮은 성능을 기록한 것을 확인할 수 있고 AP-L 에서는 높은 성능을 기록한 것을 확인할 수 있다. DINOv2랑 SAM2 Hiera-S 가 얼추 비슷한 성능이긴한데 Latency 차이가 압도적이다. 그리고 SAM2랑 SigLIPv2가 FP16 precision에서 성능이 낮다는 것도 좀 흥미롭긴하다.
'Deep Learning' 카테고리의 다른 글
| 구글에서 작성한 프롬프트 샘플 및 설계 전략 (0) | 2026.01.11 |
|---|---|
| Qwen3VL 예제 코드 모음 (1) | 2026.01.06 |
| 20251122 요새 써보고 있는 논문 요약 프롬프트 (0) | 2025.11.22 |
| gemini3 pro preview를 이용한 sam3 논문 요약 (0) | 2025.11.22 |
| INT v.s. FP: A Comprehensive Study of Fine-GrainedLow-bit Quantization Formats 논문 Gemini 3.0 Pro Preview 요약 (0) | 2025.11.19 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 위상 정렬 알고리즘
- 이분탐색
- 백트래킹
- 백준 1766
- 백준 11437
- 인공지능을 위한 선형대수
- ㅂ
- FairMOT
- 조합
- LCA
- 백준 11053
- 자료구조
- cosine
- MOT
- PyCharm
- 단축키
- Lowest Common Ancestor
- 문제집
- 백준
- 파이참
- 순열
- 가장 긴 증가하는 부분 수열
- C++ Deploy
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
글 보관함

