BentoML¶
BentoML 允许您将大型语言模型(LLM)服务器与 vLLM 后端一起部署,从而暴露与 OpenAI 兼容的端点。您可以在本地提供模型服务,也可以将其容器化为符合 OCI 标准的镜像,并部署在 Kubernetes 上。
有关详细信息,请参阅教程 BentoML 文档中的 vLLM 推理。
BentoML 允许您将大型语言模型(LLM)服务器与 vLLM 后端一起部署,从而暴露与 OpenAI 兼容的端点。您可以在本地提供模型服务,也可以将其容器化为符合 OCI 标准的镜像,并部署在 Kubernetes 上。
有关详细信息,请参阅教程 BentoML 文档中的 vLLM 推理。