이 문서에 대하여
이 문서는 AWS Seoul Summit에서 SageMaker HyperPod Checkpointless Training을 발표하기 위해 작성된 심층 연구 자료입니다. ML에 대한 기초 지식이 없는 상태에서도 기술의 원리를 깊이 이해할 수 있도록 구성되었습니다.
목차
Part 1: 기초 지식 (Foundation)
ML 학습 인프라의 기초부터 탄탄하게 쌓습니다.
AWS Chapter 1
Amazon SageMaker & HyperPodSageMaker 서비스 개요, HyperPod 아키텍처, Slurm vs EKS 오케스트레이션, Auto-Resume, UltraServers
📖 약 60분PyTorch Chapter 2
분산 학습 기초Forward/Backward Pass, Optimizers (SGD/Adam/AdamW), Mixed Precision, Data/Tensor/Pipeline Parallelism, 3D Parallelism
📖 약 90분PyTorch Chapter 3
FSDP, ZeRO, NCCLZeRO Stage 1/2/3, FSDP 동작 원리, 메모리 계산, NCCL Collective Operations, Ring/Tree Algorithm
📖 약 90분NVIDIA Chapter 4
GPU & EFA 네트워킹H100/H200 스펙, NVLink/NVSwitch, AWS Trainium, EFA (3200 Gbps), FSx for Lustre, UltraClusters
📖 약 45분Part 2: 문제 정의 (The Problem)
대규모 학습에서 기존 Checkpointing이 왜 병목이 되는지 이해합니다.
Part 3: 솔루션 (The Solution)
Checkpointless Training의 5대 컴포넌트와 실전 적용법을 학습합니다.
핵심 Chapter 6
Checkpointless Training5대 컴포넌트 상세: Rootless NCCL, MMAP Data Loading, In-Process Recovery, P2P State Replication, Training Operator
📖 약 90분실전 Chapter 7
성능 & Getting Started벤치마크 (2,304 GPU <2분 복구, 95%+ goodput), 4-Tier Integration 가이드, Pre-configured Recipes, 코드 예시
📖 약 60분Part 4: 비교 & 참고 (Comparison & References)
경쟁 기술과 학술 연구를 파악하여 Q&A 대비를 완료합니다.
비교 Chapter 8
경쟁 기술 & 학술 연구PyTorch Elastic, NVIDIA NVRx, DeepSpeed, Google Pathways/OCS, CheckFreq, Bamboo, Varuna, Oobleck, MegaScale
📖 약 60분참고 Chapter 9
Q&A & 용어집예상 질문 15개 + 상세 답변, 기술 용어 50개+ 정의, 슬라이드별 발표 가이드, 참고 URL
📖 약 45분학습 가이드
Day 2 (3시간): Chapter 5-7 — 핵심 내용. 문제(Checkpointing 한계)와 솔루션(Checkpointless)을 깊이 학습합니다.
Day 3 (3시간): Chapter 8-9 — Q&A 대비. 경쟁 기술을 비교하고 예상 질문에 대한 답변을 준비합니다.
리서치 소스
이 문서는 다음 소스에서 수집한 정보를 통합하여 작성되었습니다:
| 소스 | 내용 |
|---|---|
| AWS 공식 문서 | SageMaker HyperPod, Checkpointless Training, EFA, FSx 문서 |
| AWS 블로그 (3개) | Checkpointless Training 기술 상세, Tiered Checkpointing, 런치 발표 |
| 원본 PPTX (AIM3338) | re:Invent 2024 세션 52슬라이드 전체 텍스트 추출 |
| Gemini CLI 리서치 (2건) | Checkpointless 종합 분석, 분산 학습 기초 |
| Claude Agent 리서치 (6건) | ML Fundamentals, AWS Docs, Competitors, Academic Papers |
| NVIDIA 공식 문서 | H100/H200 스펙, NVLink, NCCL, NVRx GitHub |
| 학술 논문 (5편) | CheckFreq, Bamboo, Varuna, Oobleck, MegaScale |
| GitHub | sagemaker-hyperpod-checkpointless-training, sagemaker-hyperpod-recipes |