每日一博 | 在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs
我们很高兴正式发布 trl 与 peft 的集成,使任何人都可以更轻松地使用强化学习进行大型语言模型 (LLM) 微调!在这篇文章中,我们解释了为什么这是现有微调方法的有竞争力的替代方案。 请注意, peft 是一种通用工具,可以应用于许多 ML 用例,但它对 RLHF 特别有趣,因为这种方法特别需要内存! 如果你想直接深入研究代码,请直接在 TRL 的文档页面 直接查看示例脚本。 介绍 LLMs & RLHF LLM 结合 RLHF (人类反馈强化学习) 似乎是构建非常强大的 AI 系统 (例如 ChatGPT) 的下一个首选方法。 使用 RLHF 训练语言模型通常包括以下三个步骤: 在特定领域或指令和人类示范语料库上微调预训练的 LLM; 收集人类标注的数据集,训练一个奖励模型; 使用 RL (例如 PPO),用此数据集和奖励模型进一步微调步骤 1 中的 LLM。 ChatGPT 的训练协议概述,从数据收集到 RL 部分。 资料来源: OpenAI 的 ChatGPT 博文 基础 LLM 的选择在这里是至关重要的。在撰写本文时,可以“开箱即用”地用于许多任务的“最佳”开源 ...