Skip to content

人类反馈强化学习¶

人类反馈强化学习（RLHF）是一种使用人类生成的偏好数据对语言模型进行微调的技术，以使模型输出与期望行为对齐。vLLM 可用于生成 RLHF 的完成文本。

以下开源强化学习库使用 vLLM 进行快速推演（按字母顺序排列，非穷尽列表）：

如果您不想使用现有库，可以通过以下基础示例开始使用：

查看以下笔记本，了解如何使用 vLLM 进行 GRPO：