티스토리 뷰

ECCV2024에 "When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset" 란 제목의 논문이 Accept 된 것을 확인했습니다.

 

https://arxiv.org/pdf/2407.10125

 

https://github.com/BubblyYi/MMPedestron

 

 

Multi-Modal 이런 키워드는 고사하고 RGB 도메인의 Human Detection 성능을 보았을때 기존 Vision Foundation Model이라 할 수 있는 InternImage 보다 훨씬 작은 모델 사이즈로 유사한 성능을 보이고 있습니다.

 

https://github.com/developer0hye/yolov8-vs-yolo11/blob/main/yolo11x-coco-results.csv

 

yolov8-vs-yolo11/yolo11x-coco-results.csv at main · developer0hye/yolov8-vs-yolo11

The average precision per class for the YOLOv8 and YOLO11 pre-trained on the COCO dataset - developer0hye/yolov8-vs-yolo11

github.com

 

 

YOLO11x의 Person Class AP가 65.6인 점을 고려해봤을때 71.1의 AP가 나온다는 것은 검출 성능만 보았을때는 상당히 큰 차이를 보인다고 저는 해석됩니다. (여기서, MMPedestron이 Validation Set에서 사람만 있는 이미지로 측정한지, 아니면 사람이 없더라도 False Positive 에 대한 오검출을 고려하기위하여 Negative Sample로 정답을 구성하여 측정한지는 아직 코드, 논문을 제대로 안봐서 잘 모르겠습니다만...) 그리고, CrowdHuman Dataset에서 97.1이 나온다는 것도 놀랍습니다 ㄷㄷ... AP50 이라고 해도 엄청난 수치고 AP50:95라고 해도 엄청난 수치로 보입니다.

 

COCO Pretrained YOLOv8이나 11만 써도 사람 검출 꽤나 잘되는데 싶은데... 다양한 영상에 대해 테스트 해보면 자세가 좀 다이나믹해지거나 특정 의상을 입고 옆모습으로 촬영된 경우 검출을 잘 못하는 경우가 꽤나 있더라고요... 그래서, 이런 복잡한 케이스를 모두 커버하는 모델이 있는지, 것도 오픈 모델중에 있는지! 틈틈이 찾아보고 있습니다. 

 

돌려는 보고 싶은데 MMDeteciton 기반인 것이 시도하기 귀찮게 만드네요...

 

일단 이렇게 올려놓고 빠른 시일내에

 

"돌려보고 싶은데 귀찮아서 망설이고 있는 Human Detection Model MMPedestron (2) 결국 돌려보다." 로 찾아뵐 수 있으면 좋겠습니다.

 

그럼 안녕히계세요.

 

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/10   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
글 보관함