Inference-Ready Cluster 구성, GPU 스택, Karpenter 동작 원리
| 배포 패턴 | 적합 시나리오 | 복잡도 | 스케일링 | GPU |
|---|---|---|---|---|
| Ray-vLLM ⭐ 권장 | 프로덕션, 자동 스케일링 | 중간 | RayServe 내장 | 1+ |
| vLLM Standalone | PoC, 빠른 시작 | 낮음 | HPA | 1+ |
| Triton-vLLM | 멀티모델, A/B 테스트 | 높음 | HPA + Custom | 1+/모델 |
| AIBrix-vLLM | 관리형, 라우팅 최적화 | 낮음 | 내장 옵티마이저 | 1+ |
| LWS-vLLM | 초대형 모델 (405B+) | 높음 | 멀티노드 | 4+ 노드 |
| Dynamo-vLLM | KV-aware 라우팅 | 매우 높음 | SLA 기반 | 2+ |
| 인스턴스 | GPU | VRAM | $/hr | 적합 모델 | 비고 |
|---|---|---|---|---|---|
| g5.xlarge | 1× A10G | 24 GB | ~$1.01 | 7B (Mistral, Llama-3.2) | 가장 경제적 |
| g6.xlarge | 1× L4 | 24 GB | ~$0.80 | 7B | g5 대비 저렴 |
| g5.12xlarge | 4× A10G | 96 GB | ~$5.67 | 13B~34B | TP=4 분산 |
| g6e.12xlarge | 4× L40S | 192 GB | ~$8.49 | 34B~70B | 차세대 GPU |
| p4d.24xlarge | 8× A100 | 320 GB | ~$32.77 | 70B | 고성능 |
| p5.48xlarge | 8× H100 | 640 GB | ~$98.32 | 405B+ | 최대 성능 |