Java分享

专注最优质的分享

热门搜索:

HarmonyOS NEXT
ArkTS
Ai
ChatGPT
文心一言
ChatGLM
Docker
K8s
Kubesphere
SpringCloud
Nacos

您现在的位置是：首页 > 文章详情

verl —— HybridFlow 论文的开源实现

日期：2025-03-03点击：128收藏

verl 是一个灵活、高效且可用于生产的 RL 训练库，适用于大型语言模型 (LLM)。

verl 是 HybridFlow：一种灵活高效的 RLHF 框架 论文的开源实现。

verl 灵活且易于使用：

轻松扩展各种 RL 算法：混合编程模型结合了单控制器和多控制器范式的优势，能够灵活地表示和高效执行复杂的训练后数据流。允许用户用几行代码构建 RL 数据流。
现有 LLM 基础架构与模块化 API 无缝集成：解耦计算和数据依赖关系，实现与现有 LLM 框架（如 PyTorch FSDP、Megatron-LM 和 vLLM）无缝集成。此外，用户可以轻松扩展到其他 LLM 训练和推理框架。
灵活的设备映射：支持将模型放置到不同的 GPU 组上，以实现高效的资源利用率和跨不同集群规模的可扩展性。
轻松与流行的 HuggingFace 模型集成

verl 速度很快：

最先进的吞吐量：通过无缝集成现有的 SOTA LLM 训练和推理框架，verl 实现了高生成和训练吞吐量。
使用 3D-HybridEngine 进行高效的演员模型重新分片：消除内存冗余并显著减少训练和生成阶段之间转换期间的通信开销

主要特点

FSDP和Megatron-LM用于训练。
vLLM和TGI用于推出生成，SGLang支持即将推出。
huggingface 模型支持
监督微调
使用PPO、GRPO、ReMax、Reinforce++、RLOO等从人类反馈中进行强化学习
- 支持基于模型的奖励和基于函数的奖励（可验证的奖励）
flash-attention、序列打包、通过 DeepSpeed Ulysses、LoRA、Liger-kernel提供长上下文支持
可扩展至 70B 模型和数百个 GPU
使用 wandb、swanlab 和 mlflow 进行实验跟踪

原文链接：https://www.oschina.net/p/verl

关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有，本站原创内容转载请注明来源。

相关文章

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章