티스토리 뷰
Weight Decay 관련 실험 해보다가 기록용으로 적음
yolov5 프로젝트 보면 weight decay를 Batch Normalization Layer 파라미터와 Bias 값들을 제외하고 적용하는 거를 확인할 수 있다.
재구현을 해볼때 이런 거 하나 하나가 되게 사소해보이는데 이런 거 하나 빼먹으면 성능 재현이 안되는 경우가 있다. (예를 들면 "weight decay 몇 레이어에 적용해주고 안해주고 차이가 그리 크겠어?"란 생각을 갖고 그냥 모든 파라미터 다 먹이면 되지~라는 식의 접근... 굉장히 위험하다. 나중에 성능 재현이 안돼서 이걸로 수일 수주 수개월의 시간을 쓸수도 있다...)
근데 yolov5 에서 adamw 를 optimizer로 사용하도록 세팅을 해줄 수가 있는데 뭔가 이상한 점을 발견했다.
adamw 는 weight decay에 대한 람다값으로 default로 1e-2로 세팅돼있다. 근데 yolov5는 이를 고려하고 있지 않다. 그래서 이를 고려하도록 코드를 수정해서 기여했다.
https://github.com/ultralytics/yolov5/pull/8592
'Deep Learning > PyTorch' 카테고리의 다른 글
[PyTorch] Swin 모델 사용법 (0) | 2022.11.02 |
---|---|
PyTorch Contribution! (0) | 2022.08.11 |
[PyTorch] AutoMixedPrecision 주의점 (0) | 2022.03.27 |
[PyTorch] Batchnorm running_var 계산시 주의할 점 (0) | 2022.03.23 |
[PyTorch] Batchnorm Implementation (0) | 2022.03.21 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- ㅂ
- 이분탐색
- 백준 1766
- MOT
- 백트래킹
- 파이참
- 위상 정렬 알고리즘
- 가장 긴 증가하는 부분 수열
- Lowest Common Ancestor
- 단축키
- 자료구조
- 백준 11437
- LCA
- C++ Deploy
- 백준 11053
- 순열
- 조합
- PyCharm
- 백준
- 인공지능을 위한 선형대수
- 문제집
- FairMOT
- cosine
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함