
- H100 2GPU 서버라도 ‘특정 모델/구성’이면 NVLink가 됩니다. 예: H100 PCIe(또는 H100 NVL) 두 장을 NVLink 브리지로 직접 연결(최대 600 GB/s)할 수 있습니다. 반면 SXM5 + NVSwitch 기반의 HGX/DGX H100(4/8 GPU) 는 GPU당 900 GB/s의 NVLink를 전폭 활용하고, 8GPU 보드 전체로 7.2 TB/s 양방향 대역을 제공합니다. 일반적인 2GPU PCIe만 탑재한 서버는 NVLink가 없고, **PCIe 5.0 x16(≈ 64 GB/s/dir)**로만 통신합니다. (hpctech.co.jp, NVIDIA, Quarch Technology Ltd)
아래 표는 “순수 성능(연산량) 외에” 2GPU 서버에서 하기 어려운/사실상 불가하고 8GPU(HGX/DGX)에서만 현실적으로 가능한 것들을 정리한 것입니다.
| 구분 | H100 2GPU 서버(보통 PCIe) | H100 8GPU 서버(HGX/DGX·NVLink+NVSwitch) | 왜 차이가 나나? |
|---|---|---|---|
| 고차 모델 병렬화(텐서/파이프·시퀀스·전문가 EP≥4~8) | 이론상 가능하나 통신 병목으로 현실성 낮음(학습 스텝 시간이 급증) | 현실적·안정적. TP/PP/EP 조합으로 대규모 LLM 학습/추론 고효율 | NVSwitch 전폭 연결(8-GPU 7.2 TB/s, GPU당 900 GB/s) vs PCIe5 단일 링크(~64 GB/s/dir). MoE의 all-to-all도 NVLink에서만 실시간 성능이 나옴. (NVIDIA, Quarch Technology Ltd, NVIDIA Developer, arXiv, NVIDIA Docs) |
| 대규모 all-reduce/attention-sync 저지연 실행 | 지연↑·스케일 효율↓ | 저지연·고효율 all-reduce/브로드캐스트 | NVLink/NVSwitch는 PCIe 대비 **지연↓·대역↑**로 집단통신 효율이 크게 상승. (NVIDIA Developer) |
| 단일 노드에서 거대 파라미터/장문맥 모델 ‘실사용’ | 혼합정밀·체크포인팅·오프로딩으로 가능은 하나 느리고 불안정 | 모델 샤딩(TP/EP)으로 현실적 처리량 확보 | 통신/메모리 교환의 병목이 NVLink에선 크지 않음. (NVIDIA Developer, NVIDIA Docs) |
| NVLink 기반 멀티노드 확장(NVLink Switch System) | 해당 없음 | 가능(DGX H100/슈퍼팟: 최대 256 GPU NVLink 도메인) | 노드 간 NVLink 스위치 네트워크 지원은 HGX/DGX 계열 전용. (NVIDIA Developer) |
| 미세 입출력(NVSHMEM 등) 원격 메모리 접근·원자연산 | 동작은 가능(PCIe/IB 지원)이나 성능 이득 제한적 | 효율적(GPU 주도 RMA/원자연산이 NVLink에서 고성능) | NVSHMEM은 다양한 인터커넥트를 지원하지만, NVLink일 때 효과 극대화. (NVIDIA Docs, NVIDIA Developer) |
| 대역폭 집약 추론(대배치/멀티-쿼리, KV-샤딩) | 지연·드랍률↑ 위험 | 지연·처리량 균형 유지 용이 | NVSwitch all-to-all/집단통신 우위. (NVIDIA Developer) |
| 표준 장비 네트워킹 스펙 | 보통 1–2× 100/200 Gb NIC | DGX H100: 10× 400 Gb NIC(노드 간 1 TB/s 피크) | 멀티노드 스케일-아웃 능력 자체가 다름. (NVIDIA) |
정리(의사결정 포인트)
- 작게 빨리: 2GPU 서버는 파인튜닝/소형 모델 추론/개발용에 적합. NVLink 브리지가 있는 H100 PCIe/NVL ‘2GPU-NVLink’ 구성이라면 2-GPU 텐서 병렬까지는 실무적으로 쓸 만합니다. (hpctech.co.jp)
- 크게 안정적으로: 8GPU(HGX/DGX) 는 NVLink+NVSwitch로 MoE·대형 LLM·장문맥 등 통신 집약 워크로드에서만 가능한 품질/지연/처리량을 냅니다. (NVIDIA, NVIDIA Developer)
- 확장성: NVLink Switch System으로 멀티노드-NVLink(최대 256 GPU) 까지 확장 가능한 계층은 8GPU 계열에서만 현실적으로 접근 가능합니다. (NVIDIA Developer)
참고: “2GPU는 NVLink를 쓸 수 없다”는 말은 일반적 PCIe형 2GPU 서버에겐 대체로 맞지만, H100 PCIe/NVL의 ‘2장 브리지’ 예외가 있습니다(최대 600 GB/s). 8GPU HGX/DGX는 NVSwitch로 8-way 풀-메시가 되는 전혀 다른 급의 패브릭입니다. (hpctech.co.jp, NVIDIA)