티스토리 뷰
모델 학습 시, 작은 Batch Size로 학습 시키는 것이 Regularization 효과를 낼 수 있다고 합니다. [1]
작은 Batch Size로 학습 시킬 때, 유의할 점이 있습니다.
일반적으로 Batch Size가 작을 수록 학습 단계에서 Gradient의 Variance가 커집니다. 이에 따라 Learning Rate를 작게 설정하는 것을 권장합니다.
하지만, Batch Normalization Layer가 모델에 포함된 경우에 학습 시 극도로 작은 Batch Size(< 8) 는 오히려 성능을 크게 저하 시킬 수 있습니다. [2]
메모리의 한계로 큰 Batch Size로 학습 시키기 힘든 경우, Group Normalization Layer를 Batch Normalization Layer 대신에 사용해볼 수 있습니다.
References
[1] D. R. Wilson and T. R. Martinez. The general inefficiency of batch training for gradient descent learning. Neural Networks, 16(10):1429–1451, 2003.
[2] D. Masters and C. Luschi. Revisiting small batch training for deep neural networks. arXiv preprint arXiv:1804.07612, 2018.
'Deep Learning' 카테고리의 다른 글
Windows 10 GPU Status 확인 (0) | 2020.12.23 |
---|---|
MOT Dataset Annotation Format 정리 (9) | 2020.11.22 |
MOT20 Ground Truth Format (0) | 2020.11.17 |
FairMOT Build on Window (4) | 2020.11.14 |
Empirical Risk Minimization (0) | 2020.09.14 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- MOT
- 위상 정렬 알고리즘
- 자료구조
- FairMOT
- ㅂ
- 단축키
- 백준
- 문제집
- C++ Deploy
- 인공지능을 위한 선형대수
- Lowest Common Ancestor
- 조합
- cosine
- 가장 긴 증가하는 부분 수열
- 백트래킹
- LCA
- 백준 1766
- 백준 11053
- 백준 11437
- 파이참
- 순열
- 이분탐색
- PyCharm
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함