[Deep Learning] 20231105 학습시 배치 사이즈에 관하여...

티스토리 뷰

Deep Learning

[Deep Learning] 20231105 학습시 배치 사이즈에 관하여...

developer0hye 2023. 11. 5. 00:10

CNN 류 모델들은 GPU 메모리 사용량을 최대치에 가깝게 사용할때 학습 속도(수렴 X, Latency O)가 빨랐는데, Transformer 류 모델들은 GPU 메모리를 여유있게(한 75%?...) 배치 사이즈를 설정해야 속도가 빠른 거 같다. 아닌가.. CUDA 코어 사용량 때문인가...

v100이나 a100 같은 gpu로는 학습을 안시켜봐서 모르겠다.

적어도 rtx 3070, titan rtx 에서는 이런 현상을 경험할 수 있었다.

'Deep Learning' 카테고리의 다른 글

DETR 이 수렴 속도가 느린 의심되는 이유 중 하나 (1)	2023.12.02
Wandb 강제 종료(Ctrl+C) 후 잦은 에러 메시지 출력 문제 해결법 (2)	2023.11.08
[ONNXRuntime] python ONNXRuntime gpu 지정 방법 (0)	2023.10.20
딥 러닝 프로젝트 CI 적용 사례 (0)	2023.10.16
[Deep Learning] 2D Human Pose Estimation을 한 줄로! onepose (2)	2023.10.05

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

지속 가능한 꾸준함

티스토리 뷰

[Deep Learning] 20231105 학습시 배치 사이즈에 관하여...

'Deep Learning' 카테고리의 다른 글

티스토리툴바