Skip to content

总结

Important

现在,许多解码器语言模型都可以使用 Transformers 建模后端 自动加载,而无需在 vLLM 中实现它们。请先尝试运行 vllm serve <model> 命令!

vLLM 模型是专门的 PyTorch 模型,它们利用各种特性来优化性能。

将模型集成到 vLLM 中的复杂性在很大程度上取决于模型的架构。 如果模型与 vLLM 中已有的模型具有相似的架构,那么这个过程会相当简单。 然而,对于包含新算子(例如新的注意力机制)的模型,这个过程可能会更加复杂。

请阅读以下页面以获取分步指南:

Tip

如果您在将模型集成到 vLLM 时遇到问题,请随时提出 GitHub issue 或在我们的开发者 Slack 上提问。 我们很乐意帮助您!