Node Lifecycle Management
Junseok Oh
Sr. Solutions Architect
Amazon Web Services
Block 2: 노드 라이프사이클 & 모니터링
CPU Requests vs Usage — Karpenter 판단 기준 시각화
노드 상태 및 Karpenter 이벤트 확인
핵심 Karpenter 메트릭 쿼리
클러스터 내 현재 노드 수 추적
스케줄 대기 중인 Pod 수 (프로비저닝 필요 신호)
전체 중 Spot 인스턴스 비율 (pods_state의 capacity_type 라벨 활용)
Pod 생성~Running까지 P99 지연 시간 (노드 프로비저닝 포함)
EventBridge → SQS → Karpenter → Pod 퇴거 → 재스케줄링 전체 플로우
Pause 컨테이너로 사전 용량 확보 — 즉시 스케줄링
value: -1 → 가장 낮은 우선순위환경별 노드 최대 수명 설정
안정성과 보안 패치 속도의 균형
NodeClass 변경 시 자동 노드 교체 흐름
| 특성 | AL2023 | Bottlerocket |
|---|---|---|
| 부팅 시간 | 40-60초 | 20-30초 |
| 보안 | 표준 | 강화 (immutable) |
| SSH 접근 | 가능 | 제한적 |
| 권장 사용처 | 디버깅 필요 환경 | 프로덕션, 보안 중요 |
Karpenter 및 노드 상태 알림 구성
EKS Auto Mode 운영 준비 상태 점검
노드 라이프사이클 & 모니터링 핵심 내용 정리
kubectl, Prometheus 쿼리로 노드 상태 및 이벤트 추적
2분 경고 내 Pod 안전 이동, PDB 준수
expireAfter, Drift, AlertManager 알림