Part 2 — EKS 아키텍처 & 인프라

Inference-Ready Cluster 구성, GPU 스택, Karpenter 동작 원리

VPC + EKS Cluster
EKS Control Plane (Managed)
API Server | etcd | Scheduler | 99.95% SLA
CPU Nodes
System Pods
Karpenter
GPU Nodes
vLLM Pods
g5/g6/p4d/p5
애드온 (자동 설치)
KubeRay Operator | NVIDIA Device Plugin
Karpenter | Prometheus + Grafana
AWS LB Controller | EBS/EFS CSI
AWS 관리 서비스
ECR — 컨테이너 이미지
S3 — 모델 아티팩트 캐시
EFS — 공유 모델 스토리지
Secrets Manager — HF Token 보안 관리
EKS Pod Identity / IRSA — Pod 레벨 권한
CloudWatch — 로그 & 감사 추적

배포 패턴 적합 시나리오 복잡도 스케일링 GPU
Ray-vLLM ⭐ 권장 프로덕션, 자동 스케일링 중간 RayServe 내장 1+
vLLM Standalone PoC, 빠른 시작 낮음 HPA 1+
Triton-vLLM 멀티모델, A/B 테스트 높음 HPA + Custom 1+/모델
AIBrix-vLLM 관리형, 라우팅 최적화 낮음 내장 옵티마이저 1+
LWS-vLLM 초대형 모델 (405B+) 높음 멀티노드 4+ 노드
Dynamo-vLLM KV-aware 라우팅 매우 높음 SLA 기반 2+
⭐ Ray-vLLM 권장 이유
RayServe 오토스케일링 내장 (요청 수 기반 자동 확장) | Karpenter와 연동하여 GPU 노드 자동 프로비저닝 | Helm Chart 3줄로 배포 가능 (inference-charts) | 프로덕션 환경에서 가장 검증된 패턴

인스턴스 GPU VRAM $/hr 적합 모델 비고
g5.xlarge 1× A10G 24 GB ~$1.01 7B (Mistral, Llama-3.2) 가장 경제적
g6.xlarge 1× L4 24 GB ~$0.80 7B g5 대비 저렴
g5.12xlarge 4× A10G 96 GB ~$5.67 13B~34B TP=4 분산
g6e.12xlarge 4× L40S 192 GB ~$8.49 34B~70B 차세대 GPU
p4d.24xlarge 8× A100 320 GB ~$32.77 70B 고성능
p5.48xlarge 8× H100 640 GB ~$98.32 405B+ 최대 성능
VRAM 계산 공식 (BF16 기준):
모델 가중치(GB) ≈ 파라미터 수(B) × 2  |  7B ≈ 14GB → g5.xlarge 충분  |  70B ≈ 140GB → p4d.24xlarge TP=8
Spot 절감: g5 Spot = On-Demand 대비 60~70% 할인 (가용성 사전 확인 필수)

# ai-on-eks/infra/solutions/inference-ready-cluster/
# 1. Clone & Configure
git clone https://github.com/awslabs/ai-on-eks.git
cd ai-on-eks/infra/solutions/inference-ready-cluster
# 2. blueprint.tfvars 편집
region = "us-west-2"
enable_karpenter = true
enable_kuberay = true
enable_lws = true
enable_nvidia_plugin = true
enable_observability = true
# 3. Deploy (약 20분)
terraform init && terraform apply -var-file=blueprint.tfvars
자동 설치 컴포넌트
✦ VPC (Multi-AZ, Private Subnet)
✦ EKS Cluster + Managed Node Group
✦ Karpenter (GPU/CPU NodePools)
✦ KubeRay Operator
✦ NVIDIA Device Plugin + NFD
✦ DCGM Exporter
✦ Prometheus + Grafana
✦ AWS LB Controller + EBS CSI

Application
vLLM Engine — CUDA 애플리케이션, PyTorch, FlashAttention-2
K8s Metrics
DCGM Exporter — GPU 활용률, 온도, 전력, VRAM 메트릭 노출
K8s Discovery
Node Feature Discovery — GPU 특성 자동 라벨링 (CUDA 버전, GPU 모델)
K8s Plugin
NVIDIA Device Plugin — GPU 리소스 등록 및 Pod 할당 관리
Container
NVIDIA Container Toolkit — GPU를 컨테이너에 노출 (nvidia-docker2)
Hardware
NVIDIA GPU — A10G 24GB / L4 24GB / A100 80GB / H100 80GB

🏗️
클러스터 아키텍처
EKS + Terraform
40+ 애드온 자동 설치
🎯
Ray-vLLM 권장
6가지 패턴 중
프로덕션 검증 완료
🖥️
GPU 스택
Device Plugin →
DCGM → vLLM
Karpenter
Pending → Node Ready
2~5분 자동 프로비저닝
← 목차로 돌아가기 다음: Ray-vLLM 배포 딥다이브 →