[PyTorch] DistributedDataParallel 예시 코드 및 참고 자료 모음

티스토리 뷰

Deep Learning/PyTorch

[PyTorch] DistributedDataParallel 예시 코드 및 참고 자료 모음

developer0hye 2021. 6. 18. 18:12

기존에 Single node, multiple GPUs System(그냥 PC 1대에 GPU 여러대 꽂힌 피시로 생각, pytorch 공식 문서에서 이렇게 표기했길래 따라 씀) 에서 multiple gpu 를 활용함에 있어 DataParallel 모듈을 활용했다. 그런데, 쓰다보니 GPU 메모리 불균형 문제가 너무 심해서 메모리가 쏠리는 한 GPU 가 터지지 않게 해당 GPU의 메모리 사용량에 배치사이즈를 맞추다보니 다수개의 GPU를 제대로 활용하지 못했었다.

이와 관련해서는 아래의 포스트에서도 언급되어 있다.

https://medium.com/daangn/pytorch-multi-gpu-%ED%95%99%EC%8A%B5-%EC%A0%9C%EB%8C%80%EB%A1%9C-%ED%95%98%EA%B8%B0-27270617936b

🔥PyTorch Multi-GPU 학습 제대로 하기

PyTorch를 사용해서 Multi-GPU 학습을 하는 과정을 정리했습니다. 이 포스트는 다음과 같이 진행합니다.

medium.com

그래서 이참에 DDP(DistributedDataParallel) 모듈을 사용해보려 했는데 DP(DataParallel) 처럼 모듈로 모델만 감싸주면 되는 줄 알았는데 그게 아니였다...

world_size 니 rank 니 생소한 용어들을 이해하지 않고 코드만 복붙해서 쓰려다보니 계속 오류가 났고 실행은 됐는데 Gpu 별로 메모리 분배도 고르게 되지 않았다... (world_size 는 학습에 필요한 총 프로세스 수이고 Single node, multiple GPUs System 에서는 사용할 GPU의 개수로 생각하면 된다. rank = 그냥 프로세스별 아이디로 생각하면 면될듯)

(현재 시스템이 Single node, multiple GPUs System 이라는 가정하에)

어떤 함수 def training(...): 에서 data load, forward, backward, step(optimization) 과정이 다 일어난다고 해보자 일단 DP는 Single Process 에서 forward 과정에서만 GPU가 병렬적으로 사용되지만, DDP는 아예 이 training(...) 함수가 Multiple Process 에서 동작되어야 한다. 이 차이가 가장 큰 차이였다. 이걸 이해하지 않은채 Single Process 에서 model 을 DDP로 감싸고 사용 가능한 GPU id를 gpu_inds 에 다 때려박으니 그냥 DP를 사용할때와 같이 동작하는 것 이였다...

결국 아래 pytorch 공식 예제 소스코드를 참고하여 구현하는데 성공하였다.

pytorch에서 제공하는 multiprocessing 패키지를 이용하고 병렬로 호출되는 main_worker 함수에서 프로세스 ID를 gpu 라는 변수에 저장하게끔 구현하고 한 프로세스에는 프로세스 ID와 동일한 GPU를 사용하도록 하는것이 관건이였다.

https://github.com/pytorch/examples/blob/master/imagenet/main.py

pytorch/examples

A set of examples around pytorch in Vision, Text, Reinforcement Learning, etc. - pytorch/examples

github.com

밑에 건 페이스북에서 제안한 DEIT 트랜스포머에 관한 프로젝트이다. 이 프로젝트에서도 DDP를 사용하고 있다. 이 프로젝트를 기반으로하는 트랜스포머 프로젝트들이 많으니 어느정도 신뢰하고 이 프로젝트의 main.py 코드를 참고해도 될듯하다.

https://github.com/facebookresearch/deit

GitHub - facebookresearch/deit: Official DeiT repository