티스토리 뷰

아래 표는 챗지피티로 생성함

 

항목 DirectML EP (onnxruntime-directml) CUDA EP (onnxruntime-gpu)

기반 API DirectML (DirectX 12 위에 구축된 ML API) NVIDIA CUDA 및 cuDNN
지원 OS Windows 10/11(x64/ARM64) 한정 Windows, Linux, WSL 2, 일부 Jetson Linux
지원 HW DX12 을 지원하는 모든 GPU·iGPU· NPU (NVIDIA·AMD·Intel·Qualcomm 등) NVIDIA GPU 전용 (Pascal 이후 권장)
설치 패키지 pip install onnxruntime-directml (CUDA 의존성 無) pip install onnxruntime-gpu + CUDA toolkit/cuDNN 호환 버전 필요 (onnxruntime.ai, onnxruntime.ai)
ONNX opset 커버리지 1.15 시점 기준 opset 20까지 대부분 지원·일부 op 미지원(DeformConv 등) (onnxruntime.ai) 최신 ORT 버전과 동일(일반적으로 opset 21+)
혼합정밀·INT8 FP16 지원(모든 HW에서 동일 경로)INT8 미지원 FP16·BF16(+Tensor Core 활용), INT8 (TensorRT 통합 시)
최적화·성능 일반 CNN·mobile model → 준수대형 Transformer나 배치 큰 경우 CUDA 대비 2 ~ 5× 느린 사례 보고 (GitHub) 대형 모델·고배치에서 가장 빠름; Tensor Core·TensorRT로 추가 가속 가능
추가 특징 * NPU(퀄컴 Hexagon, Intel AI Boost) 가속 프리뷰 (devblogs.microsoft.com)* 외부 드라이버만 있으면 추가 설치 無 * TensorRT EP 함께 사용 가능* 멀티-GPU·MIG·NVLink 등 지원

 

python으로 프로그래밍하고 nuitka 사용해서 exe로 만들어서 ai inference api 서버 배포를 하는데 onnxruntime을 사용한다.

 

이때, onnxruntime 순정 버전을 쓰면 cpu로만 추론이 된다. onnxruntime-gpu로 배포하자니 상대방 pc에 맞는 cuda, cudnn이 설치 돼있어야할 거 같아서 챗지피티랑 커서ai 에 붙은 각종 LLM 들한테 물어보니까 onnxruntime-directml 쓰면 상대방 pc에 cuda, cudnn 일치하는 버전 아니여도 호환성 좋게 잘 돌아간다더라

 

그래서 onnxruntime-directml로 재설치하고 nuitka로 exe 화한 다음 내 PC에서 테스트해보니 잘돌았고, 배포받은 측에서도 GPU로 잘 돈다고 하였다.

 

굿!

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/12   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
글 보관함