SageMaker HyperPod Checkpointless Training

대규모 분산 학습의 장애 복구를 혁신하는 기술 — 심층 연구 문서

9 Chapters ~10시간 학습 분량 Level 200-300 AWS Seoul Summit 2026

이 문서에 대하여

이 문서는 AWS Seoul Summit에서 SageMaker HyperPod Checkpointless Training을 발표하기 위해 작성된 심층 연구 자료입니다. ML에 대한 기초 지식이 없는 상태에서도 기술의 원리를 깊이 이해할 수 있도록 구성되었습니다.

학습 목표 SageMaker가 무엇인지부터 시작하여, 분산 학습의 원리, 기존 Checkpointing의 한계, 그리고 Checkpointless Training이 이를 어떻게 해결하는지를 체계적으로 이해합니다. 경쟁 기술과 학술 연구까지 파악하여 Q&A에도 자신 있게 대응할 수 있는 수준을 목표로 합니다.

목차

Part 1: 기초 지식 (Foundation)

ML 학습 인프라의 기초부터 탄탄하게 쌓습니다.

Part 2: 문제 정의 (The Problem)

대규모 학습에서 기존 Checkpointing이 왜 병목이 되는지 이해합니다.

Part 3: 솔루션 (The Solution)

Checkpointless Training의 5대 컴포넌트와 실전 적용법을 학습합니다.

Part 4: 비교 & 참고 (Comparison & References)

경쟁 기술과 학술 연구를 파악하여 Q&A 대비를 완료합니다.

학습 가이드

추천 학습 순서 Day 1 (4시간): Chapter 1-4 — 기초 지식 습득. SageMaker와 분산 학습의 전반적인 그림을 이해합니다.
Day 2 (3시간): Chapter 5-7 — 핵심 내용. 문제(Checkpointing 한계)와 솔루션(Checkpointless)을 깊이 학습합니다.
Day 3 (3시간): Chapter 8-9 — Q&A 대비. 경쟁 기술을 비교하고 예상 질문에 대한 답변을 준비합니다.
발표 직전 빠른 복습 (30분) 시간이 부족한 경우 Chapter 5 (문제 정의) → Chapter 6 (Checkpointless 5대 컴포넌트) → Chapter 9 (Q&A)만 읽어도 발표에 필요한 핵심을 파악할 수 있습니다.

리서치 소스

이 문서는 다음 소스에서 수집한 정보를 통합하여 작성되었습니다:

소스내용
AWS 공식 문서SageMaker HyperPod, Checkpointless Training, EFA, FSx 문서
AWS 블로그 (3개)Checkpointless Training 기술 상세, Tiered Checkpointing, 런치 발표
원본 PPTX (AIM3338)re:Invent 2024 세션 52슬라이드 전체 텍스트 추출
Gemini CLI 리서치 (2건)Checkpointless 종합 분석, 분산 학습 기초
Claude Agent 리서치 (6건)ML Fundamentals, AWS Docs, Competitors, Academic Papers
NVIDIA 공식 문서H100/H200 스펙, NVLink, NCCL, NVRx GitHub
학술 논문 (5편)CheckFreq, Bamboo, Varuna, Oobleck, MegaScale
GitHubsagemaker-hyperpod-checkpointless-training, sagemaker-hyperpod-recipes