
아래가 TP / PP / EP의 약자와 의미를 한눈에 정리한 표입니다. (대규모 모델에서 보통 **DP(Data Parallelism)**와 함께 조합해 씁니다.)
| 약자 | 풀네임 | 핵심 아이디어 | 대표 통신 패턴 | 언제/왜 쓰나 |
|---|---|---|---|---|
| TP | Tensor Parallelism | 한 **레이어 내부의 큰 텐서(가중치·활성)**를 여러 GPU로 분할 계산 | all-reduce, all-gather(레이어마다) | 한 레이어가 단일 GPU 메모리에 안 들어가거나, 행렬곱 폭을 늘려 스루풋을 끌어올릴 때 |
| PP | Pipeline Parallelism | 모델 **레이어를 구간(스테이지)**으로 나눠 마이크로배치를 파이프라인으로 연속 처리 | 인접 스테이지 간 send/recv | 깊은 모델의 활성 메모리를 분산하고, 큰 모델을 적은 메모리로 돌릴 때 |
| EP | Expert Parallelism (MoE) | 전문가(Expert) 모듈을 GPU에 분산, 게이트가 토큰을 선택적으로 라우팅(희소 활성화) | all-to-all | 매우 큰 파라미터 수를 **낮은 연산량(FLOPs)**으로 처리(거대 LLM·리즌닝·장문맥 추론에 유리) |
운용 메모(현업 포인트)
- TP/EP는 고대역·저지연 인터커넥트(예: NVLink/NVSwitch)가 사실상 필수입니다. 레이어마다 집단통신(TP)·토큰 전면 라우팅(EP)이 잦기 때문입니다.
- PP는 통신 부담이 상대적으로 낮지만, 파이프라인 버블(유휴시간)과 스테이지 균형을 맞추는 튜닝이 핵심입니다.
- 실무에선 **DP × (TP/PP/EP 중 1~2개)**를 섞는 3D/4D 병렬이 표준입니다. 예) DP×TP×PP로 학습, EP는 MoE 블록에만 적용.