그냥 요즘 느끼는 점에 대한 글

티스토리 뷰

Deep Learning

그냥 요즘 느끼는 점에 대한 글

developer0hye 2024. 8. 4. 18:14

진짜 헛소리로 가득찬 글이니 너무 진지하게 받아들이지 말아주세요.

회사에서 Vision Recognition Model을 학습시킬때 만장, 2만장, 3만장 정도 학습 데이터를 구축해도 불구하고 왜 이런 케이스에서 오탐으로 분류되지 싶은... 상식적으로 이해 안되는 샘플들이 너무 많다.

팀원 중 한 분의 아기가 커가는 모습을 보고 문득 생각이 들었다. 아기가 말하고 어느정도 상황을 인지하기 시작하는 게 3~4살은 돼야하는 거 같은데 이때 아기가 눈을 뜬 시간에 받아들이는 시각적 신호에 대한 양을 생각해보면 적어도 하루에만

8시간 -> 28,000초 x 120 FPS(120, 144, 240 hz 차이를 느끼는 사람들이 있는 걸 생각해 봤을때 인간의 눈을 샘플링 하면 최소 이정도는 될 거 같다.) x 4K 해상도 사이즈(4K, 8K 는 딱히 ...) x 16비트(그냥 정함... HDR 생각해보면 한 10 비트 이상이면 얼추 우리 눈의 Dynamic Range를 커버하는 거 같긴한데 그래도 10비트는 느낌 상 적을 거 같고 16비트...?는 돼야하지 않을까?)

이정도의 정보를 습득할 거 같다. 물론 시각적 신호는 너무 Redundant 해서 이런 거 걸러내고 진또배기 정보들이 존재하는 프레임만 걸러낸다면 좀 줄긴 하겠지만 하루에만 엄청나게 많은 데이터를 처리한다. 근데 이걸 적어도 4년 정도는 처리해야 이제 말귀 좀 알아듣는 상태가 되지 않나? 이걸 생각해보면 몇만장만 구축해서 오탐 0프로, 미탐 0 프로 수준의 AI 모델을 개발하려는 게 욕심인 거 같다는 생각도 든다. 특히 여기서 데이터 뿐만 아니라 한정된 하드웨어 스펙에서 ViT로 치면 base 정도 되는 모델도 간신히 넣을 수 있는 모델에서의 한계도 있는 상황이니 개발하는데 애로 사항이 많이 발생하는 거 같다.

유튜브 보다보니 얀르쿤 선생님이 이미 이런 의견을 말씀하셨다. 저 Interviewer는 뭐하시는 분이시길래 대단한 유명 인사들과 인터뷰를 가지시는지 참 대단하시다.

https://www.youtube.com/watch?v=cZQT6tGdK04

'Deep Learning' 카테고리의 다른 글

Sapiens: Foundation for Human Vision Models 리뷰 (0)	2024.08.26
Getting ViT in Shape:Scaling Laws for Compute-Optimal Model Design (0)	2024.08.25
20240728 shift-invariant cnn 관련 흥미로워 보이는 논문 3개 기록, 근데 나이퀴스트 이론을 곁들인 (0)	2024.07.28
즉흥적으로 기록해놓는 Video Classification 관련 참고 자료 (0)	2024.07.13
20240711 논문을 읽어봐야 할 거 같은 Object Detection 방법이 나온 거 같다! LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection (0)	2024.07.11

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

지속 가능한 꾸준함

티스토리 뷰

그냥 요즘 느끼는 점에 대한 글

'Deep Learning' 카테고리의 다른 글

티스토리툴바