티스토리 뷰

진짜 헛소리로 가득찬 글이니 너무 진지하게 받아들이지 말아주세요.

회사에서 Vision Recognition Model을 학습시킬때 만장, 2만장, 3만장 정도 학습 데이터를 구축해도 불구하고 왜 이런 케이스에서 오탐으로 분류되지 싶은... 상식적으로 이해 안되는 샘플들이 너무 많다.

 

팀원 중 한 분의 아기가 커가는 모습을 보고 문득 생각이 들었다. 아기가 말하고 어느정도 상황을 인지하기 시작하는 게 3~4살은 돼야하는 거 같은데 이때 아기가 눈을 뜬 시간에 받아들이는 시각적 신호에 대한 양을 생각해보면 적어도 하루에만

 

8시간 -> 28,000초  x 120 FPS(120, 144, 240 hz 차이를 느끼는 사람들이 있는 걸 생각해 봤을때 인간의 눈을 샘플링 하면 최소 이정도는 될 거 같다.) x 4K 해상도 사이즈(4K, 8K 는 딱히 ...) x 16비트(그냥 정함... HDR 생각해보면 한 10 비트 이상이면 얼추 우리 눈의 Dynamic Range를 커버하는 거 같긴한데 그래도 10비트는 느낌 상 적을 거 같고 16비트...?는 돼야하지 않을까?) 

 

이정도의 정보를 습득할 거 같다. 물론 시각적 신호는 너무 Redundant 해서 이런 거 걸러내고 진또배기 정보들이 존재하는 프레임만 걸러낸다면 좀 줄긴 하겠지만 하루에만 엄청나게 많은 데이터를 처리한다. 근데 이걸 적어도 4년 정도는 처리해야 이제 말귀 좀 알아듣는 상태가 되지 않나? 이걸 생각해보면  몇만장만 구축해서 오탐 0프로, 미탐 0 프로 수준의 AI 모델을 개발하려는 게 욕심인 거 같다는 생각도 든다. 특히 여기서 데이터 뿐만 아니라 한정된 하드웨어 스펙에서 ViT로 치면 base 정도 되는 모델도 간신히 넣을 수 있는 모델에서의 한계도 있는 상황이니 개발하는데 애로 사항이 많이 발생하는 거 같다.

 

유튜브 보다보니 얀르쿤 선생님이 이미 이런 의견을 말씀하셨다. 저 Interviewer는 뭐하시는 분이시길래 대단한 유명 인사들과 인터뷰를 가지시는지 참 대단하시다.

 

https://www.youtube.com/watch?v=cZQT6tGdK04

 

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함