티스토리 뷰
Efficient Video Action Recognition 관련 연구 Don't Look Twice: Faster Video Transformers with Run-Length Tokenization
developer0hye 2025. 7. 1. 20:23Don't Look Twice: Faster Video Transformers with Run-Length Tokenization
Transformers are slow to train on videos due to extremely large numbers of input tokens, even though many video tokens are repeated over time. Existing methods to remove such uninformative tokens either have significant overhead, negating any speedup, or r
arxiv.org


이미지, 비디오는 Space, Time 축으로 중복도가 높다. 우리가 아는 jpg, h264, h265(hevc) 등의 코덱등이 이런 중복도를 이용해 사이즈를 압축하는 것이다. 이 논문은 이러한 중복도를 단순히 Patch 별로 시간축으로 Pixel 값의 차이로 그 차이가 적다면 Drop하고 크다면 토큰을 유지하는 방법을 제안한다.
게다가 그냥 Drop하면 어쨌든 중복도가 높을지언정 그 정보가 삭제되는 거기 때문에 성능 손실이 따라올 수 밖에 없는데 이걸 보상해주고자 Time축으로 얼마나 중복됐는지에 대한 중복도를 임베딩하여 토큰에 더해준다.
너무 깔끔하다...
단! 단점으로는 토큰을 날리고 임베딩으로 더하다 보니까 시간축으로 특정 위치의 토큰은 없다시피 하다보니 dense prediction task에 바로 적용하기란 어려워보인다.
이 논문을 알게된 계기는 어쩌다 VideoLLama3 논문을 대충 훑고 있었는데 거기서 언급이 돼서 보게됐다.

'Deep Learning' 카테고리의 다른 글
| 한국어 문장 임베딩(Korean Sentence Embedding) 예시 코드 (5) | 2025.07.30 |
|---|---|
| ai deploy를 위해 onnxruntime-directml 를 써보아요 (0) | 2025.07.09 |
| mirror detection task & dataset 도 있구나 (0) | 2025.06.22 |
| lora 팁 글 펌 (0) | 2025.06.13 |
| AWS a10g, l40s 4~8x gpus 세팅으로 20일 가까이 학습 돌리면 발생하는 비용 (1) | 2025.06.06 |
- Total
- Today
- Yesterday
- Lowest Common Ancestor
- 파이참
- 위상 정렬 알고리즘
- C++ Deploy
- 단축키
- PyCharm
- FairMOT
- 인공지능을 위한 선형대수
- 조합
- 백준 1766
- 순열
- 자료구조
- 이분탐색
- 백트래킹
- 백준 11053
- 가장 긴 증가하는 부분 수열
- ㅂ
- cosine
- LCA
- 문제집
- 백준 11437
- 백준
- MOT
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
