반응형 LeaderWorkerSet1 StatefulSet 멀티노드 LLM 추론 한계 끝낸 K8s LeaderWorkerSet 1. LeaderWorkerSet 기술이란?왜 필요한가: 기존 방식(Deployment·StatefulSet)의 한계LLM이 커지면서 모델 하나가 GPU 한 노드에 안 들어가는 일이 일상이 됐습니다. 8×H100(640GB)으로도 Llama-3.1-405B(FP16)나 DeepSeek-R1 671B 같은 모델은 한 노드에 못 올립니다. 그래서 모델을 여러 노드에 샤딩합니다 — 노드 안은 텐서 병렬(TP), 노드 사이는 파이프라인 병렬(PP). vLLM·SGLang·TensorRT-LLM은 이미 멀티노드 추론을 지원하고, 보통 Ray로 노드들을 한 런타임으로 묶습니다. 문제는 그 위, 쿠버네티스 워크로드 계층입니다.Deployment: 파드는 서로 무관하고 교체 가능한(fungible) 복제본입니다. 하나.. 2026. 6. 18. 이전 1 다음 반응형