티스토리 뷰

paper: https://arxiv.org/abs/2406.09414

 

github project: https://github.com/DepthAnything/Depth-Anything-V2

 

 

아래 페이지에서 데모를 아주 쉽게 돌려볼 수 있다.

 

https://huggingface.co/spaces/depth-anything/Depth-Anything-V2

 

Depth Anything V2 - a Hugging Face Space by depth-anything

Running on Zero

huggingface.co

 

논문 진짜 대충 쓱 봤는데 핵심은 대충 이렇게 정리 되는 거 같다.

 

Depth 이미지의 경우 Real-world 데이터(=이미지)에 대한 정답(GT) 만들기 어렵다.

 

대신 synthetic 데이터 생성이 가능한데 리얼 월드 데이터와 도메인 Gap은 크지만 정답은 잘 만들 수 있다.

 

1.  Synthetic Data  써서 Large 모델(=ViT-G, 다른 것도 써봤는데 이것만 만족할만한 결과 내줬다고함)을 학습 시킨다.

 

ViT 중에서도 DINOv2를 사용했다고 한다.

 

2. Large 모델로 Real-world 데이터의 Depth 이미지를 슈도라벨링한다.

 

3. Large 모델로 만들어진 (Real-world 데이터, Pseudo-labeled Depth 데이터) 데이터로 Small 모델을 학습시킨다.

 

잘된다.

 

(디테일한 내용 하나도 없이 내가 대충 봤을때 읽힌 부분만 쓴것임)

 

Demo 결과는 아래와 같다. 참고로 Demo는 vitl 모델을 쓰는 것으로 보인다.

 

아래는 official sample 이미지이다.

 

이제부터는 내가 직접 촬영한 이미지를 입력해본 결과이다.

 

너무 먼거리에 있는 물체는 시각화가 안되긴 했는데 제법 잘되는 거 같다. 이거 말고도 다양한 샘플 입력해봤는데 진짜 잘나온다. 하긴 실제 Depth 센서들도 취득 가능한 Range가 있는데 너무 너무 멀리있는 저 남산 타워는 안나오는 게 맞는 거 같다.

 

아래는 친구가 입력해서 나온 이미지이다. 부리와 인형 몸위에 놓인 미세하게 앞서있는 툭튀어나온 팔의 뎁스 차이 마저 고려된 결과가 나왔다.

 

 

 

 

대학원 연구실 친구에게도 공유하였는데 압축 연구실이라 그런지 스크린 컨텐츠는 어떻게 나오나 확인한 형도 있었다 ㅋㅋㅋㅋ

 

 

이건 뭐 잘 못나와도 인정이다!

 

만약 Padded Image 를 넣는다면?

대개 이미지를 모델에 넣기전에 전처리 과정으로 리사이즈 과정이 동반된다. 이때 aspect ratio를 유지한채로 resize 를 하는 경우 패딩을 하게 된다. 혹시 이 경우에 어떻게 나오는지 궁금해서 돌려봤다.


padded area 에선 저렇게 나온다. 이 모델을 특정 태스크에 잘 활용하려면 전처리를 좀 고민 많이 해봐야할 거 같다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/10   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
글 보관함