여러 GPU로 분산 – TP/PP/EP (xParalleism)

GPU 병렬화
GPU 병렬화

아래가 TP / PP / EP의 약자와 의미를 한눈에 정리한 표입니다. (대규모 모델에서 보통 **DP(Data Parallelism)**와 함께 조합해 씁니다.)

약자풀네임핵심 아이디어대표 통신 패턴언제/왜 쓰나
TPTensor Parallelism한 **레이어 내부의 큰 텐서(가중치·활성)**를 여러 GPU로 분할 계산all-reduce, all-gather(레이어마다)한 레이어가 단일 GPU 메모리에 안 들어가거나, 행렬곱 폭을 늘려 스루풋을 끌어올릴 때
PPPipeline Parallelism모델 **레이어를 구간(스테이지)**으로 나눠 마이크로배치를 파이프라인으로 연속 처리인접 스테이지 간 send/recv깊은 모델활성 메모리를 분산하고, 큰 모델적은 메모리로 돌릴 때
EPExpert Parallelism (MoE)전문가(Expert) 모듈을 GPU에 분산, 게이트가 토큰을 선택적으로 라우팅(희소 활성화)all-to-all매우 큰 파라미터 수를 **낮은 연산량(FLOPs)**으로 처리(거대 LLM·리즌닝·장문맥 추론에 유리)

운용 메모(현업 포인트)

  • TP/EP는 고대역·저지연 인터커넥트(예: NVLink/NVSwitch)가 사실상 필수입니다. 레이어마다 집단통신(TP)·토큰 전면 라우팅(EP)이 잦기 때문입니다.
  • PP는 통신 부담이 상대적으로 낮지만, 파이프라인 버블(유휴시간)과 스테이지 균형을 맞추는 튜닝이 핵심입니다.
  • 실무에선 **DP × (TP/PP/EP 중 1~2개)**를 섞는 3D/4D 병렬이 표준입니다. 예) DP×TP×PP로 학습, EP는 MoE 블록에만 적용.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다