티스토리 뷰
아래는 챗지피티가 만들어준 표
항목 NVIDIA A10G NVIDIA L40S
| 출시 시기 | 2021 | 2023 |
| 아키텍처 | Ampere (GA102) | Ada Lovelace (AD102) |
| FP32 성능 | ~31.2 TFLOPS | ~91.6 TFLOPS |
| FP16 성능 (Tensor Core) | ~125 TFLOPS (Sparsity 포함) | ~1467 TFLOPS (Sparsity 포함) |
| INT8 성능 (Tensor Core) | ~250 TOPS (Sparsity 포함) | ~2935 TOPS (Sparsity 포함) |
| VRAM 용량 | 24 GB GDDR6 | 48 GB GDDR6 |
| 메모리 대역폭 | 600 GB/s | 864 GB/s |
| TDP (전력 소비) | 300W | 350W |
| NVENC / NVDEC | 2x NVENC / 1x NVDEC | 2x NVENC (8세대) / 2x NVDEC |
| 주용도 | 중급 AI 추론 / VDI / 렌더링 | 고성능 AI 학습 및 추론 / 3D 렌더링 / Omniverse 등 |
내가 학습시키는 모델과 데이터셋 기준으로는
l40s 4x gpu 세팅으로 1에폭당 30분 걸릴 게 a10g 4x gpu 세팅으로는 1에폭당 1시간30분 걸린다.
aws에서 해서 gpu만 바뀐 게 아니고 cpu, ram 도 아마 바뀌긴 했을텐데 어쨌든 이정도 2배 이상은 빠를거다라고 기대하면 될 거 같다.
'Deep Learning' 카테고리의 다른 글
| lora 팁 글 펌 (0) | 2025.06.13 |
|---|---|
| AWS a10g, l40s 4~8x gpus 세팅으로 20일 가까이 학습 돌리면 발생하는 비용 (1) | 2025.06.06 |
| peft, timm 기반 InternViT-300M-448px-V2.5 모델 lora 적용 코드 예시 (0) | 2025.06.03 |
| LORA, Adapter, Prompt Tuning 등 PEFT를 ViT에 적용 및 제안한 논문 (0) | 2025.06.01 |
| 8x A10G (g5.48xlarge) vs 4x A5000 학습 뭐가 더 빠를까? (4) | 2025.05.10 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- Lowest Common Ancestor
- FairMOT
- LCA
- 이분탐색
- cosine
- 단축키
- 파이참
- 백준 11053
- 가장 긴 증가하는 부분 수열
- 백준 11437
- 백트래킹
- 인공지능을 위한 선형대수
- 문제집
- MOT
- 조합
- 순열
- 백준 1766
- PyCharm
- 백준
- ㅂ
- 위상 정렬 알고리즘
- C++ Deploy
- 자료구조
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
글 보관함
