Skip to content

欢迎来到 vLLM

vLLM Light vLLM Dark

为所有人提供简单、快速且低成本的 LLM 服务

Star Watch Fork

vLLM 是一个快速且易于使用的 LLM 推理和服务库。

最初由加州大学伯克利分校 Sky Computing Lab 开发,vLLM 已发展成为由社区驱动的项目,接受了来自学术界和工业界的贡献。

如何开始使用 vLLM 取决于用户类型。如果您希望:

有关 vLLM 开发的信息,请参阅:

vLLM 的优势体现在:

  • 具备最先进的服务吞吐量
  • 使用 PagedAttention 高效管理注意力键和值内存
  • 对传入请求进行连续批处理
  • 使用 CUDA/HIP 图实现快速模型执行
  • 量化支持:GPTQAWQ、INT4、INT8 和 FP8
  • 优化的 CUDA 内核,包括与 FlashAttention 和 FlashInfer 的集成
  • 规范化解码
  • 分块预填充

vLLM 具有灵活性且易于使用,体现在:

  • 与流行的 HuggingFace 模型无缝集成
  • 支持多种解码算法的高吞吐量服务,包括并行采样束搜索
  • 支持张量并行、管道并行、数据并行和专家并行,用于分布式推理
  • 流式输出
  • 兼容 OpenAI 的 API 服务器
  • 支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、Arm CPU 和 TPU。此外,还支持 Intel Gaudi、IBM Spyre 和华为 Ascend 等多样化的硬件插件
  • 前缀缓存支持
  • 多 LoRA 支持

欲了解更多信息,请参阅以下内容: