llm-d¶
vLLM 可以与 llm-d 配合使用,这是一个 Kubernetes 原生的分布式推理服务栈,为任何人提供清晰的路径,用于在大规模环境下服务大型生成式 AI 模型。它有助于在各种硬件加速器和基础设施提供商上,为关键的开源模型实现最快的“达到最先进(SOTA)性能”的时间。
您可以通过遵循 此指南 直接在 llm-d 中使用 vLLM,也可以通过 KServe 的 LLMInferenceService 进行使用。
vLLM 可以与 llm-d 配合使用,这是一个 Kubernetes 原生的分布式推理服务栈,为任何人提供清晰的路径,用于在大规模环境下服务大型生成式 AI 模型。它有助于在各种硬件加速器和基础设施提供商上,为关键的开源模型实现最快的“达到最先进(SOTA)性能”的时间。
您可以通过遵循 此指南 直接在 llm-d 中使用 vLLM,也可以通过 KServe 的 LLMInferenceService 进行使用。