모델 학습 시, 작은 Batch Size로 학습 시키는 것이 Regularization 효과를 낼 수 있다고 합니다. [1] 작은 Batch Size로 학습 시킬 때, 유의할 점이 있습니다. 일반적으로 Batch Size가 작을 수록 학습 단계에서 Gradient의 Variance가 커집니다. 이에 따라 Learning Rate를 작게 설정하는 것을 권장합니다. 하지만, Batch Normalization Layer가 모델에 포함된 경우에 학습 시 극도로 작은 Batch Size(< 8) 는 오히려 성능을 크게 저하 시킬 수 있습니다. [2] 메모리의 한계로 큰 Batch Size로 학습 시키기 힘든 경우, Group Normalization Layer를 Batch Normalization Layer 대..
Loss Function, Cost Function, Error는 머신 러닝, 딥 러닝 공부를 하다보면 익히 들어봤을 용어일 것입니다. 그런데, Empirical Risk는 어쩌면 생소한 용어일 수 있습니다. Risk는 Error와 같으며, 여기서 Error는 Loss Function의 값을 의미합니다. 즉, 우리의 모델이 문제를 얼마나 잘풀어냈는지(낮을수록 좋음)를 정량적으로 나타낸 값입니다. Empirical Risk는 우리가 가진 전체 데이터 샘플에 대한 Loss Function 의 평균값입니다. 즉, Cost Function 의 값과 동일합니다. 즉, Empirical Risk Minimization은 Empirical Risk를 Minimization 한다는 것으로 Cost Function을 M..
- Total
- Today
- Yesterday
- C++ Deploy
- 가장 긴 증가하는 부분 수열
- Lowest Common Ancestor
- 백준 11053
- PyCharm
- FairMOT
- LCA
- 문제집
- 이분탐색
- cosine
- 위상 정렬 알고리즘
- 자료구조
- 백준 11437
- 파이참
- 조합
- 백트래킹
- ㅂ
- 인공지능을 위한 선형대수
- 순열
- MOT
- 백준
- 백준 1766
- 단축키
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |