欢迎来到 vLLM¶

为所有人提供简单、快速且低成本的 LLM 服务

Star Watch Fork

vLLM 是一个快速且易于使用的 LLM 推理和服务库。

最初由加州大学伯克利分校 Sky Computing Lab 开发，vLLM 已发展成为由社区驱动的项目，接受了来自学术界和工业界的贡献。

如何开始使用 vLLM 取决于用户类型。如果您希望：

有关 vLLM 开发的信息，请参阅：

vLLM 的优势体现在：

vLLM 具有灵活性且易于使用，体现在：

与流行的 HuggingFace 模型无缝集成
支持多种解码算法的高吞吐量服务，包括并行采样、束搜索等
支持张量并行、管道并行、数据并行和专家并行，用于分布式推理
流式输出
兼容 OpenAI 的 API 服务器
支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、Arm CPU 和 TPU。此外，还支持 Intel Gaudi、IBM Spyre 和华为 Ascend 等多样化的硬件插件
前缀缓存支持
多 LoRA 支持

欲了解更多信息，请参阅以下内容：