캬... 클로드코드 이전에 nvdec 랑 cpu 둘다 활용해서 디코딩 throughput 최대화 하는 거 꿈만 꾸다가 구현은 못했는데 클로드코드 덕에 이런 게 다 되는구나... 150대 디코딩 하는데 cpu 사용량은 18%라니... 원래 쌩으로 cpu 로만 디코딩하면 fhd 30fps 비디오 150대 디코딩하는데 한 cpu 사용량 85%정도는 차지했었다. 게다가 이 패치를 통해서 cpu2gpu 과정이 사라지면서 pcie 통신에 의한 병목도 사라지니 ai 처리량이 2배가 됐다... 아 너무 감동이다 ㅜㅜ
1. 왜 perf를 써야 할까?서비스를 운영하다 보면 CPU 사용률이 높다는 건 알겠는데, 어떤 함수가 실제로 CPU를 많이 쓰는지는 쉽게 파악하기 어렵습니다.이럴 때 사용하는 대표적인 도구가 바로 perf입니다.perf는 Linux 커널에서 제공하는 성능 분석 도구로, 다음과 같은 정보를 얻을 수 있습니다:함수별 CPU 사용량Call stack 기반 병목 분석Cache miss, branch miss 같은 Low-level metricFlame Graph 생성용 데이터 수집2. perf 기본 개념perf는 크게 두 단계로 나뉩니다:record: 성능 데이터 수집report: 수집된 데이터 분석3. 함수별 CPU 사용량 측정하기3.1 실행 중인 프로세스 분석perf record -F 99 -p -g -..
nvidia-smi dmon -s u — GPU 사용률을 실시간 모니터링하는 방법개요딥러닝 학습이나 GPU 연산 작업을 돌릴 때, GPU가 제대로 활용되고 있는지 확인하고 싶을 때가 있습니다. nvidia-smi는 한 번의 스냅샷만 보여주기 때문에 시간에 따른 변화를 추적하기 어렵습니다.nvidia-smi dmon -s u는 GPU 사용률(Utilization)을 1초 간격으로 실시간 스트리밍해주는 명령어입니다. 별도 설치 없이 NVIDIA 드라이버만 있으면 바로 사용할 수 있습니다.명령어 구조nvidia-smi dmon -s u구성 요소설명nvidia-smiNVIDIA System Management InterfacedmonDevice Monitoring — 지정한 메트릭을 스크롤 형태로 반복 출력-s..
- Total
- Today
- Yesterday
- LCA
- 위상 정렬 알고리즘
- 백준 1766
- 문제집
- ㅂ
- 인공지능을 위한 선형대수
- 백준 11053
- MOT
- Lowest Common Ancestor
- 파이참
- FairMOT
- 자료구조
- cosine
- 백준 11437
- 순열
- 단축키
- C++ Deploy
- 가장 긴 증가하는 부분 수열
- 백트래킹
- PyCharm
- 조합
- 이분탐색
- 백준
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
