티스토리 뷰
진짜 헛소리로 가득찬 글이니 너무 진지하게 받아들이지 말아주세요.
회사에서 Vision Recognition Model을 학습시킬때 만장, 2만장, 3만장 정도 학습 데이터를 구축해도 불구하고 왜 이런 케이스에서 오탐으로 분류되지 싶은... 상식적으로 이해 안되는 샘플들이 너무 많다.
팀원 중 한 분의 아기가 커가는 모습을 보고 문득 생각이 들었다. 아기가 말하고 어느정도 상황을 인지하기 시작하는 게 3~4살은 돼야하는 거 같은데 이때 아기가 눈을 뜬 시간에 받아들이는 시각적 신호에 대한 양을 생각해보면 적어도 하루에만
8시간 -> 28,000초 x 120 FPS(120, 144, 240 hz 차이를 느끼는 사람들이 있는 걸 생각해 봤을때 인간의 눈을 샘플링 하면 최소 이정도는 될 거 같다.) x 4K 해상도 사이즈(4K, 8K 는 딱히 ...) x 16비트(그냥 정함... HDR 생각해보면 한 10 비트 이상이면 얼추 우리 눈의 Dynamic Range를 커버하는 거 같긴한데 그래도 10비트는 느낌 상 적을 거 같고 16비트...?는 돼야하지 않을까?)
이정도의 정보를 습득할 거 같다. 물론 시각적 신호는 너무 Redundant 해서 이런 거 걸러내고 진또배기 정보들이 존재하는 프레임만 걸러낸다면 좀 줄긴 하겠지만 하루에만 엄청나게 많은 데이터를 처리한다. 근데 이걸 적어도 4년 정도는 처리해야 이제 말귀 좀 알아듣는 상태가 되지 않나? 이걸 생각해보면 몇만장만 구축해서 오탐 0프로, 미탐 0 프로 수준의 AI 모델을 개발하려는 게 욕심인 거 같다는 생각도 든다. 특히 여기서 데이터 뿐만 아니라 한정된 하드웨어 스펙에서 ViT로 치면 base 정도 되는 모델도 간신히 넣을 수 있는 모델에서의 한계도 있는 상황이니 개발하는데 애로 사항이 많이 발생하는 거 같다.
유튜브 보다보니 얀르쿤 선생님이 이미 이런 의견을 말씀하셨다. 저 Interviewer는 뭐하시는 분이시길래 대단한 유명 인사들과 인터뷰를 가지시는지 참 대단하시다.
https://www.youtube.com/watch?v=cZQT6tGdK04
'Deep Learning' 카테고리의 다른 글
- Total
- Today
- Yesterday
- C++ Deploy
- 가장 긴 증가하는 부분 수열
- 백준 11053
- 이분탐색
- 단축키
- Lowest Common Ancestor
- 자료구조
- 위상 정렬 알고리즘
- 파이참
- 조합
- cosine
- MOT
- PyCharm
- 인공지능을 위한 선형대수
- 백준
- 문제집
- 백준 1766
- 백준 11437
- LCA
- FairMOT
- 순열
- 백트래킹
- ㅂ
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |