Skip to content

人类反馈强化学习

人类反馈强化学习(RLHF)是一种使用人类生成的偏好数据对语言模型进行微调的技术,以使模型输出与期望行为对齐。vLLM 可用于生成 RLHF 的完成文本。

以下开源强化学习库使用 vLLM 进行快速推演(按字母顺序排列,非穷尽列表):

如果您不想使用现有库,可以通过以下基础示例开始使用:

查看以下笔记本,了解如何使用 vLLM 进行 GRPO: