📖 약 45분

Chapter 4: GPU & EFA 네트워킹

대규모 분산 학습의 하드웨어 기반을 이해합니다. NVIDIA GPU 스펙, NVLink/NVSwitch 인터커넥트, AWS Trainium, EFA 네트워킹, 그리고 FSx for Lustre 스토리지까지 다룹니다.

이 장에서 배우는 것 H100/H200 GPU의 상세 스펙, NVLink 세대별 진화, AWS의 AI 가속기(Trainium), P5/P5e/P5en 인스턴스 비교, EFA의 OS Bypass 아키텍처, 그리고 체크포인트 저장을 위한 FSx for Lustre 성능을 학습합니다.

1. NVIDIA H100

H100 개요

NVIDIA H100은 Hopper 아키텍처 기반의 데이터센터 GPU로, 대규모 AI 학습과 추론에 최적화되었습니다. SXM과 NVL 두 가지 폼팩터로 제공됩니다.

H100 SXM vs NVL 스펙 비교

스펙	H100 SXM	H100 NVL
HBM3 메모리	80 GB	94 GB (2-GPU 합산 188 GB)
메모리 대역폭	3.35 TB/s	3.9 TB/s
FP16 Tensor Core	1,979 TFLOPS	1,979 TFLOPS
FP8 Tensor Core	3,958 TFLOPS	3,958 TFLOPS
BF16 Tensor Core	1,979 TFLOPS	1,979 TFLOPS
NVLink 대역폭	900 GB/s (양방향)	600 GB/s (NVLink Bridge)
TDP	700W	400W (per GPU)
MIG 지원	최대 7 인스턴스	최대 7 인스턴스
폼팩터	SXM5 (서버 전용)	PCIe Gen5 듀얼슬롯
사용 사례	대규모 학습 클러스터	LLM 추론, RAG

MIG (Multi-Instance GPU) H100은 하나의 물리 GPU를 최대 7개의 독립된 인스턴스로 분할할 수 있습니다. 각 인스턴스는 자체 메모리, SM, L2 캐시를 가지며 완전히 격리됩니다. 추론 워크로드에서 GPU 활용률을 높이는 데 유용합니다.

2. NVIDIA H200

H200 개요

NVIDIA H200은 H100의 메모리 업그레이드 버전으로, HBM3e 메모리를 탑재하여 대형 LLM 추론 성능을 크게 향상시켰습니다.

H200 vs H100 비교

스펙	H100 SXM	H200 SXM	개선율
HBM 용량	80 GB (HBM3)	141 GB (HBM3e)	+76%
메모리 대역폭	3.35 TB/s	4.8 TB/s	+43%
FP8 Tensor Core	3,958 TFLOPS	3,958 TFLOPS	동일
NVLink 대역폭	900 GB/s	900 GB/s	동일
TDP	700W	700W	동일

LLM 추론 성능 향상

H200의 추가 메모리와 대역폭은 LLM 추론에서 특히 큰 이점을 제공합니다:

모델	H100 처리량	H200 처리량	향상
Llama 2 70B	기준	1.9배	+90%
Llama 3 70B	기준	1.6배	+60%
GPT-3 175B	기준	1.8배	+80%

H200의 핵심 가치 H200은 연산 성능(TFLOPS)은 H100과 동일하지만, 메모리 용량/대역폭 증가로 메모리 바운드 워크로드(LLM 추론, 긴 컨텍스트)에서 큰 성능 향상을 제공합니다. 70B 모델을 단일 GPU에 로드하거나, KV 캐시를 더 많이 저장할 수 있습니다.

3. NVLink & NVSwitch

NVLink 개요

NVLink는 NVIDIA GPU 간 직접 연결을 위한 고속 인터커넥트입니다. PCIe보다 훨씬 높은 대역폭과 낮은 지연시간을 제공합니다.

NVLink 세대별 대역폭

세대	아키텍처	GPU당 대역폭	링크당 속도
NVLink 1.0	Pascal (P100)	160 GB/s	20 GB/s x 4 링크
NVLink 2.0	Volta (V100)	300 GB/s	25 GB/s x 6 링크
NVLink 3.0	Ampere (A100)	600 GB/s	50 GB/s x 12 링크
NVLink 4.0	Hopper (H100)	900 GB/s	50 GB/s x 18 링크
NVLink 5.0	Blackwell (B100/B200)	1,800 GB/s	100 GB/s x 18 링크
NVLink 6.0	Rubin (예정)	3,600 GB/s	200 GB/s x 18 링크

NVSwitch

NVSwitch는 단일 노드 내에서 모든 GPU를 완전 연결(Full Mesh)하는 스위치 칩입니다.

스펙	NVSwitch 3.0 (A100)	NVSwitch 4.0 (H100)
총 대역폭	4.8 TB/s	7.2 TB/s
포트 수	36 NVLink 3	64 NVLink 4
GPU 연결	8 GPU All-to-All	8 GPU All-to-All

NVL72 (GB200 NVL72)

NVIDIA의 최신 GB200 NVL72 시스템은 72개의 Blackwell GPU를 NVLink 5.0으로 연결합니다:

총 GPU 메모리: 72 x 192GB = 13.8 TB HBM3e
총 NVLink 대역폭: 130 TB/s
1.4 ExaFLOPS AI 연산 성능 (FP8)
단일 시스템에서 27조(27T) 파라미터 실시간 추론 가능

4. AWS Trainium

Trainium 개요

AWS Trainium은 AWS가 자체 개발한 ML 학습 전용 가속기입니다. NVIDIA GPU 대비 최대 50% 비용 절감을 목표로 합니다.

Trainium 세대별 비교

스펙	Trn1 (Trainium 1)	Trn2 (Trainium 2)	Trn3 (Trainium 3, 예정)
출시	2022년 10월	2024년 11월	2025년 후반 예정
칩당 HBM	32 GB (HBM2e)	96 GB (HBM3)	192 GB (HBM3e)
칩당 TFLOPS (BF16)	210 TFLOPS	750 TFLOPS	~1,400 TFLOPS
인스턴스	trn1.32xlarge	trn2.48xlarge	TBD
칩 수/인스턴스	16 칩	16 칩	TBD
총 HBM/인스턴스	512 GB	1.5 TB	3 TB+
NeuronLink	1세대	2세대 (4배 대역폭)	3세대
EFA 대역폭	800 Gbps	3,200 Gbps	TBD

NeuronLink & NeuronSwitch

NeuronLink: Trainium 칩 간 직접 연결 (NVLink의 AWS 버전)
NeuronSwitch: 노드 내 모든 Trainium 칩을 연결하는 스위치
Trn2에서 NeuronLink 대역폭이 Trn1 대비 4배 향상

가격 대비 성능

Trainium의 비용 효율성

Trn1: P4d (A100) 대비 학습 비용 최대 50% 절감
Trn2: P5 (H100) 대비 유사 성능, 더 낮은 가격
AWS Neuron SDK로 PyTorch/JAX 네이티브 지원
제약: 일부 연산자/모델 아키텍처 호환성 확인 필요

5. AWS P5/P5e/P5en 인스턴스

P5 시리즈 상세 스펙 비교

스펙	P5.48xlarge	P5e.48xlarge	P5en.48xlarge
GPU	8x H100 SXM	8x H200 SXM	8x H200 SXM
GPU 메모리	8x 80GB = 640 GB	8x 141GB = 1.1 TB	8x 141GB = 1.1 TB
vCPU	192	192	192
시스템 메모리	2 TB	2 TB	2 TB
NVSwitch	NVSwitch 4.0	NVSwitch 4.0	NVSwitch 4.0
GPU 간 대역폭	900 GB/s/GPU	900 GB/s/GPU	900 GB/s/GPU
EFA 대역폭	3,200 Gbps	3,200 Gbps	6,400 Gbps
EFA 어댑터	32x EFA	32x EFA	64x EFA
NVMe 스토리지	8x 3.84 TB	8x 3.84 TB	8x 3.84 TB
총 NVMe	30.7 TB	30.7 TB	30.7 TB
사용 사례	대규모 학습	LLM 추론, 긴 컨텍스트	초대규모 학습

P5en의 6,400 Gbps EFA P5en은 EFA 대역폭이 P5의 2배(6.4 Tbps)입니다. 이는 수천 GPU 클러스터에서 FSDP/ZeRO-3의 All-Gather/Reduce-Scatter 통신 병목을 크게 완화합니다.

6. EFA (Elastic Fabric Adapter)

EFA 정의

EFA (Elastic Fabric Adapter)는 AWS가 개발한 고성능 네트워크 인터페이스로, HPC와 ML 워크로드를 위해 설계되었습니다.

OS Bypass 아키텍처

EFA의 핵심 기능은 OS Bypass입니다. 애플리케이션이 OS 커널을 거치지 않고 네트워크 하드웨어에 직접 접근합니다:

# 전통적인 네트워크 스택 (높은 지연시간)
Application → System Call → Kernel TCP/IP → NIC Driver → NIC → Network

# EFA OS Bypass (낮은 지연시간)
Application → Libfabric API → EFA Hardware → Network
         ↑
    커널 우회 (Direct Memory Access)


# ASCII 다이어그램: EFA OS Bypass
┌─────────────────────────────────────────────────────────┐
│                      Application                         │
│                    (NCCL, MPI 등)                        │
└─────────────────┬───────────────────────────────────────┘
                  │ Libfabric API (User Space)
                  ▼
┌─────────────────────────────────────────────────────────┐
│                    EFA Device                            │
│              ┌────────────────────┐                      │
│              │   SRD Protocol     │  ← 패킷 손실 시 재전송│
│              │   (Scalable        │                      │
│              │    Reliable        │                      │
│              │    Datagram)       │                      │
│              └────────────────────┘                      │
└─────────────────┬───────────────────────────────────────┘
                  │ RDMA (Remote Direct Memory Access)
                  ▼
┌─────────────────────────────────────────────────────────┐
│                    AWS Network                           │
│                 (Petabit Scale)                          │
└─────────────────────────────────────────────────────────┘

SRD Protocol

SRD (Scalable Reliable Datagram)는 AWS가 개발한 전송 프로토콜입니다:

InfiniBand Reliable Connection보다 확장성이 높음
패킷 손실 시 자동 재전송 (신뢰성)
순서 보장 없음 → 높은 처리량
AWS 네트워크 특성에 최적화

Libfabric

Libfabric은 고성능 패브릭 서비스를 위한 사용자 공간 API입니다:

OpenFabrics 재단에서 개발
InfiniBand, EFA, TCP 등 다양한 백엔드 지원
NCCL, MPI가 Libfabric을 통해 EFA에 접근

7. EFA 대역폭

인스턴스 타입별 EFA 대역폭

인스턴스	GPU/가속기	EFA 대역폭	EFA 어댑터 수
P6e (B200)	8x B200	28,800 Gbps (28.8 Tbps)	TBD
P5en.48xlarge	8x H200	6,400 Gbps	64
P5.48xlarge	8x H100	3,200 Gbps	32
P5e.48xlarge	8x H200	3,200 Gbps	32
Trn2.48xlarge	16x Trainium2	3,200 Gbps	32
Trn1.32xlarge	16x Trainium1	800 Gbps	8
P4d.24xlarge	8x A100	400 Gbps	4
P4de.24xlarge	8x A100 80GB	400 Gbps	4

대역폭의 중요성 FSDP/ZeRO-3에서 All-Gather/Reduce-Scatter 통신량은 모델 크기에 비례합니다. 70B 모델의 경우 매 Forward/Backward마다 수백 GB의 데이터가 노드 간 이동합니다. EFA 대역폭이 부족하면 통신이 연산보다 오래 걸려 GPU가 유휴 상태로 대기합니다.

8. RDMA 지원

RDMA란?

RDMA (Remote Direct Memory Access)는 원격 시스템의 메모리에 CPU 개입 없이 직접 읽기/쓰기하는 기술입니다.

RDMA 동작

# RDMA Write (zero-copy)
Node A GPU Memory ─────────────────→ Node B GPU Memory
                    │
            CPU/OS 개입 없음
            네트워크 하드웨어가 직접 전송

# 전통적인 전송 (multiple copies)
Node A GPU → Node A CPU → Kernel → NIC → Network → NIC → Kernel → Node B CPU → Node B GPU
        copy       copy              copy              copy       copy

AWS Nitro 버전별 RDMA 지원

Nitro 버전	인스턴스	EFA RDMA 지원	GPUDirect RDMA
Nitro v4	P4d, Trn1	부분 (SRD)	미지원
Nitro v5	P5, Trn2	완전 지원	지원
Nitro v6	P5en, P6e	완전 지원	지원

GPUDirect RDMA P5 이상에서 지원되는 GPUDirect RDMA는 GPU 메모리에서 EFA를 통해 다른 노드의 GPU 메모리로 직접 데이터를 전송합니다. CPU 메모리를 경유하지 않아 지연시간이 크게 감소하고 CPU 부하가 없습니다.

9. FSx for Lustre

FSx for Lustre 개요

Amazon FSx for Lustre는 고성능 병렬 파일 시스템으로, ML 학습의 체크포인트 저장과 데이터 로딩에 최적화되었습니다.

성능 스펙

스펙	Scratch (임시)	Persistent (영구)
최대 처리량	200 MB/s per TiB	50-1000 MB/s per TiB
IOPS	수백만	수백만
지연시간	~1ms 미만	~1ms 미만
내구성	없음 (임시)	복제/백업
사용 사례	단기 학습, 캐시	체크포인트, 데이터셋

Storage Classes

스토리지 클래스	처리량	비용	사용 사례
SSD (PERSISTENT_1)	50-200 MB/s/TiB	높음	지연시간 민감 워크로드
SSD (PERSISTENT_2)	125-1000 MB/s/TiB	중간	ML 학습 권장
HDD (PERSISTENT)	12-40 MB/s/TiB	낮음	대용량 Cold 데이터

File Striping

Lustre는 대용량 파일을 여러 OST(Object Storage Target)에 분산 저장합니다:

파일 크기 > 100GB: 자동으로 stripe count 32
병렬 I/O로 처리량 선형 증가
체크포인트 저장 시 모든 노드가 동시에 쓰기 가능

EFA Throughput

연결 방식	최대 처리량	설명
Standard (ENA)	100 Gbps	일반 네트워크 인터페이스
EFA	700 Gbps	EFA 직접 연결
EFA + GPUDirect Storage	1,200 Gbps	GPU 메모리 ↔ FSx 직접 전송

GPUDirect Storage (GDS) GPUDirect Storage는 GPU 메모리와 스토리지(FSx, NVMe) 간 직접 데이터 전송을 지원합니다. 체크포인트를 GPU 메모리에서 FSx로 CPU를 거치지 않고 직접 저장할 수 있어, 체크포인트 저장 시간을 크게 단축합니다.

10. EC2 UltraClusters

UltraCluster 개요

EC2 UltraClusters는 AWS의 초대규모 ML 학습을 위한 클러스터 구성입니다.

스펙

스펙	수치
최대 GPU 수	20,000+ GPU
최대 연산 성능	20 ExaFLOPS (FP8)
네트워크	Petabit-scale non-blocking fabric
스토리지	FSx for Lustre (TB/s 급 처리량)
지원 인스턴스	P5, P5e, P5en, Trn2

특징

Non-blocking Fabric: 모든 노드 간 동일한 대역폭 보장 (Fat-tree 토폴로지)
동일 가용영역: 모든 인스턴스가 같은 AZ에 위치하여 지연시간 최소화
Placement Group: Cluster placement group으로 네트워크 최적화
EFA 풀 활용: 모든 EFA 어댑터가 최대 대역폭 사용 가능

UltraCluster 활용 사례

Amazon Nova: 수만 개의 가속기에서 Checkpointless Training으로 학습
Anthropic Claude: AWS UltraCluster에서 Claude 모델 학습
Stability AI: Stable Diffusion 모델 학습

요약

핵심 포인트

H100 SXM: 80GB HBM3, 900 GB/s NVLink, 대규모 학습의 표준
H200: 141GB HBM3e, 4.8 TB/s 대역폭, LLM 추론 성능 1.6-1.9배 향상
NVLink 4.0: GPU당 900 GB/s, NVSwitch로 8 GPU All-to-All 7.2 TB/s
Trainium 2: H100 대비 유사 성능, 최대 50% 비용 절감
P5en: 6,400 Gbps EFA, 초대규모 학습에 최적
EFA: OS Bypass + SRD + Libfabric으로 저지연 고대역폭 통신
FSx for Lustre: EFA 700 Gbps, GDS 1,200 Gbps로 체크포인트 고속 저장
UltraClusters: 20,000 GPU, 20 ExaFLOPS, Petabit 네트워크