Part 2 — EKS 아키텍처 & 인프라

Inference-Ready Cluster 구성, GPU 스택, Karpenter 동작 원리

VPC + EKS Cluster

EKS Control Plane (Managed)

API Server | etcd | Scheduler | 99.95% SLA

CPU Nodes

System Pods
Karpenter

GPU Nodes

vLLM Pods
g5/g6/p4d/p5

애드온 (자동 설치)

KubeRay Operator | NVIDIA Device Plugin
Karpenter | Prometheus + Grafana
AWS LB Controller | EBS/EFS CSI

⟷

AWS 관리 서비스

ECR — 컨테이너 이미지

S3 — 모델 아티팩트 캐시

EFS — 공유 모델 스토리지

Secrets Manager — HF Token 보안 관리

EKS Pod Identity / IRSA — Pod 레벨 권한

CloudWatch — 로그 & 감사 추적

배포 패턴	적합 시나리오	복잡도	스케일링	GPU
Ray-vLLM ⭐ 권장	프로덕션, 자동 스케일링	중간	RayServe 내장	1+
vLLM Standalone	PoC, 빠른 시작	낮음	HPA	1+
Triton-vLLM	멀티모델, A/B 테스트	높음	HPA + Custom	1+/모델
AIBrix-vLLM	관리형, 라우팅 최적화	낮음	내장 옵티마이저	1+
LWS-vLLM	초대형 모델 (405B+)	높음	멀티노드	4+ 노드
Dynamo-vLLM	KV-aware 라우팅	매우 높음	SLA 기반	2+

⭐ Ray-vLLM 권장 이유

RayServe 오토스케일링 내장 (요청 수 기반 자동 확장) | Karpenter와 연동하여 GPU 노드 자동 프로비저닝 | Helm Chart 3줄로 배포 가능 (inference-charts) | 프로덕션 환경에서 가장 검증된 패턴

인스턴스	GPU	VRAM	$/hr	적합 모델	비고
g5.xlarge	1× A10G	24 GB	~$1.01	7B (Mistral, Llama-3.2)	가장 경제적
g6.xlarge	1× L4	24 GB	~$0.80	7B	g5 대비 저렴
g5.12xlarge	4× A10G	96 GB	~$5.67	13B~34B	TP=4 분산
g6e.12xlarge	4× L40S	192 GB	~$8.49	34B~70B	차세대 GPU
p4d.24xlarge	8× A100	320 GB	~$32.77	70B	고성능
p5.48xlarge	8× H100	640 GB	~$98.32	405B+	최대 성능

VRAM 계산 공식 (BF16 기준):
모델 가중치(GB) ≈ 파라미터 수(B) × 2 | 7B ≈ 14GB → g5.xlarge 충분 | 70B ≈ 140GB → p4d.24xlarge TP=8
Spot 절감: g5 Spot = On-Demand 대비 60~70% 할인 (가용성 사전 확인 필수)

# ai-on-eks/infra/solutions/inference-ready-cluster/
# 1. Clone & Configure
git clone https://github.com/awslabs/ai-on-eks.git
cd ai-on-eks/infra/solutions/inference-ready-cluster
# 2. blueprint.tfvars 편집
region               = "us-west-2"
enable_karpenter     = true
enable_kuberay       = true
enable_lws           = true
enable_nvidia_plugin = true
enable_observability  = true
# 3. Deploy (약 20분)
terraform init && terraform apply -var-file=blueprint.tfvars

자동 설치 컴포넌트

✦ VPC (Multi-AZ, Private Subnet)

✦ EKS Cluster + Managed Node Group

✦ Karpenter (GPU/CPU NodePools)

✦ KubeRay Operator

✦ NVIDIA Device Plugin + NFD

✦ DCGM Exporter

✦ Prometheus + Grafana

✦ AWS LB Controller + EBS CSI

Application

vLLM Engine — CUDA 애플리케이션, PyTorch, FlashAttention-2

↕

K8s Metrics

DCGM Exporter — GPU 활용률, 온도, 전력, VRAM 메트릭 노출

↕

K8s Discovery

Node Feature Discovery — GPU 특성 자동 라벨링 (CUDA 버전, GPU 모델)

↕

K8s Plugin

NVIDIA Device Plugin — GPU 리소스 등록 및 Pod 할당 관리

↕

Container

NVIDIA Container Toolkit — GPU를 컨테이너에 노출 (nvidia-docker2)

↕

Hardware

NVIDIA GPU — A10G 24GB / L4 24GB / A100 80GB / H100 80GB

🏗️

클러스터 아키텍처

EKS + Terraform
40+ 애드온 자동 설치

🎯

Ray-vLLM 권장

6가지 패턴 중
프로덕션 검증 완료

🖥️

GPU 스택

Device Plugin →
DCGM → vLLM

⚡

Karpenter

Pending → Node Ready
2~5분 자동 프로비저닝

← 목차로 돌아가기 다음: Ray-vLLM 배포 딥다이브 →