
다음 한 줄이 핵심입니다:
MoE = Mixture of Experts(전문가 혼합 모델) — 입력(보통 토큰)마다 소수의 ‘전문가(서브모델)’만 선택적으로 활성화해 계산하는 희소(sparse) 신경망 아키텍처입니다.
무엇을, 어떻게 하나?
- 구성: 하나의 모델 안에 여러 전문가(Expert) 모듈(대개 Transformer의 FFN)을 두고, 게이트(Gating) 네트워크가 입력별로 Top-k(예: 1~2개) 전문가를 고릅니다.
- 동작: 선택된 전문가들만 연산 → 출력을 가중합하여 반환. 수식으로는
y = Σ g_e(x) · f_e(x)(선택된 e에 한해). - 의미/장점:
- 매개변수 규모를 크게 늘리면서도, 매 토큰에서 연산량(FLOPs)은 일부 전문가만 수행 → 성능↑·비용≈유지를 노림.
- 전문가별 전문화(언어/도메인/패턴)에 의해 표현력·전이성 향상.
- 실무 포인트: MoE를 분산할 때는 **EP(Expert Parallelism)**으로 전문가를 GPU에 나눠 담고, 토큰을 all-to-all로 라우팅합니다(통신 인프라 중요).
어디가 어려운가?
- 로드밸런싱: 특정 전문가만 몰리지 않게 보조 손실(Load-balancing loss), capacity factor(전문가 수용량) 설정 필요.
- 통신 병목: 토큰을 전문가로 보내고 모으는 all-to-all 트래픽이 크므로 NVLink/NVSwitch·400G IB/RoCE 등 고속 패브릭이 사실상 필수.
- 안정성/지연 관리: 라우팅 불안정, 배치·토큰 길이에 따른 지연 편차가 발생하기 쉬움.
언제 쓰나?
- 매우 큰 LLM/리즌닝·멀티태스크·다국어 등에서, 파라미터는 키우되 연산비는 억제하고 싶을 때 최적. (예: Switch Transformer, Mixtral 등)