llm-d¶

vLLM 可以与 llm-d 配合使用，这是一个 Kubernetes 原生的分布式推理服务栈，为任何人提供清晰的路径，用于在大规模环境下服务大型生成式 AI 模型。它有助于在各种硬件加速器和基础设施提供商上，为关键的开源模型实现最快的“达到最先进（SOTA）性能”的时间。

您可以通过遵循此指南直接在 llm-d 中使用 vLLM，也可以通过 KServe 的 LLMInferenceService 进行使用。