DevOps를 위한 LLM 서빙 도입 가이드
Amazon EKS + vLLM + RayServe를 활용한 프로덕션 레벨 LLM 추론 인프라 구축 | 1시간 세션
총 60min 세션
| 프레임워크 | tok/s | 강점 |
|---|---|---|
| vLLM ⭐ 권장 | ~12,500 | 범용, 최대 HW 지원 |
| SGLang | ~16,200 | RAG, Agent 최적화 |
| TGI | ~11,000 | HuggingFace 통합 |
| TensorRT-LLM | ~18,000 | NVIDIA 전용 최고 성능 |
github.com/awslabs/ai-on-eks
— AWS Solution Architects가 관리하는 프로덕션 레퍼런스 (Apache 2.0)