人类反馈强化学习¶
人类反馈强化学习(RLHF)是一种使用人类生成的偏好数据对语言模型进行微调的技术,以使模型输出与期望行为对齐。vLLM 可用于生成 RLHF 的完成文本。
以下开源强化学习库使用 vLLM 进行快速推演(按字母顺序排列,非穷尽列表):
如果您不想使用现有库,可以通过以下基础示例开始使用:
查看以下笔记本,了解如何使用 vLLM 进行 GRPO:
人类反馈强化学习(RLHF)是一种使用人类生成的偏好数据对语言模型进行微调的技术,以使模型输出与期望行为对齐。vLLM 可用于生成 RLHF 的完成文本。
以下开源强化学习库使用 vLLM 进行快速推演(按字母顺序排列,非穷尽列表):
如果您不想使用现有库,可以通过以下基础示例开始使用:
查看以下笔记本,了解如何使用 vLLM 进行 GRPO: