티스토리 뷰

전반적인 데이터셋에서 높은 성능을 보이는 첫 Realtime End2End Transformer 기반 Object Detection 모델이라 할 수 있는 RF-DETR 논문을 읽어봤다.

 

실험을 굉장히 많이 했다는 게 느껴지는 논문이다.

 

회사에서 많이 해왔던 일이라면 공개되는 최신 vision foundation backbone networks들을 우리의 기존 모델의 backbone을 교체하여 성능 변화를 보는 일인데, 이 논문에서 object detection 모델을 대상으로 비교적 최신 vision backbone networks라 할 수 있는 SigLIPv2, SAM2 네트워크에 대해 실험을 해놨다.

 

 

실험 결과는 논문에서 Table 6에서 확인할 수 있다. 결론은 DINOv2가 좋다이다. SigLIPv2는 patch size가 32라 그런지 AP-S 가 다른 네트워크들에 비하여 굉장히 낮은 성능을 기록한 것을 확인할 수 있고 AP-L 에서는 높은 성능을 기록한 것을 확인할 수 있다. DINOv2랑 SAM2 Hiera-S 가 얼추 비슷한 성능이긴한데 Latency 차이가 압도적이다. 그리고 SAM2랑 SigLIPv2가 FP16 precision에서 성능이 낮다는 것도 좀 흥미롭긴하다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/01   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함