腾讯开源 WeChat-YATT：微信强化学习大模型训练库-低调大师

腾讯开源 WeChat-YATT：微信强化学习大模型训练库

2025-08-18 204

腾讯基于 Megatron-Core 和 SGLang/vLLM 研发了大模型训练库 WeChat-YATT（YATT,Yet Another Transformer Trainer），内部项目名为 gCore，专注于强化学习和多模态模型的训练，旨在提供易扩展、简洁、高效、可靠的大模型训练能力。

通过定制化的并行计算策略，其训练库能够处理大尺寸模型、长序列输入和大数据集场景，解决了微信中多个实际场景的痛点问题，显著提升了业务训练大模型的效率。此工具为研究人员和开发者提供了灵活且可扩展的解决方案，以推动多模态和强化学习领域的创新发展。

并提出 WeChat-YATT 训练库，解决了大模型分布式训练过程中面临的两大核心痛点：

多模态场景下的可扩展性瓶颈：随着多模态数据（如图像、视频）规模的不断增长，传统架构中由 SingleController 进行数据管理，容易成为通讯和内存的瓶颈，导致系统吞吐量受限，甚至引发训练流程异常中断。WeChat-YATT 通过引入 Parallel Controller 的并行管理机制，有效分散压力，大幅提升系统的可扩展性和稳定性，更好地应对多模态、大数据量的复杂场景。
动态采样与生成式奖励下的效率短板：在需频繁动态采样或生成式奖励计算的训练流程中，模型频繁切换和“长尾”任务容易引发大量额外开销，导致无法充分利用 GPU 算力，影响整体训练效率。WeChat-YATT 通过部分共存策略和异步交互，大幅度减轻模型切换损耗和长尾任务影响，实现了训练过程中的高吞吐量和高资源利用，更好地支撑大规模 RLHF 任务的高效迭代。

WeChat-YATT 针对不同业务场景，支持了两种资源放置模式：全员共存与部分共存，以最大化提升集群的资源利用率。通过灵活的调度策略，WeChat-YATT 能够有效适应不同的训练需求和计算环境。

与此同时，WeChat-YATT 采用了 Parallel Controller 模式，由多个 Controller 协同管理数据任务，显著降低了单节点的内存压力，尤其为多模态训练场景提供了更优的系统支持，相较于传统的 Single Controller 架构具备更强的可靠性。

全员共存模式采用串行调度机制，Actor Rollouts、GenRM(Generative Reward Model) 与 Train 依次串行执行。每个角色完成任务后主动释放计算资源，系统加载下一个任务所需模型。该策略适配绝大多数常规训练场景。值得一提的是，在每个阶段，相关组件均可独占全部 GPU 资源，这极大缩短了资源空闲“气泡”时间，显著提升总体训练吞吐量和效率。
部分共存模式下，Actor Rollouts 与 GenRM 独立部署，并通过异步方式进行高效交互。Actor 训练阶段会占用全部 GPU 资源，在 Rollouts 生成阶段，Actor 将 GPU 资源释放并唤醒 Actor Rollouts 及 GenRM 两大组件协同工作。并通过动态的负载评估，进行资源分配与均衡。当 Rollouts 生成完毕，这两者会释放资源，Actor 随之加载到 GPU 上，进入下一轮训练流程。部分共存模式非常适合 Rollouts 与 GenRM 需要高频交互、动态采样的任务场景。

多元的资源放置模式和灵活的调度机制，使 WeChat-YATT 在复杂多变的实际环境下都能实现资源的高效利用，助力大模型在微信内部多个场景的应用落地。

项目特点：

高效内存利用：项目采用 Parallel Controller，有效降低了单节点的内存消耗，更适合多模态场景下的大模型训练，提升了系统的扩展性和稳定性。
GenRM 高效支持：对于 GenRM 场景实现了不同资源放置策略，供使用者根据场景进行高效训练。
智能 Checkpoint 策略： WeChat-YATT 支持异步 Checkpoint 保存，并针对微信业务场景，根据调度流程，实现断点自动保存，进一步保障训练安全与高可用性。
负载均衡优化：在训练过程中，WeChat-YATT 实现了各个数据并行组间的负载均衡，有效减少资源空闲时间，显著提升整体训练吞吐量。

实验效果

微信关注我们

原文链接：https://www.oschina.net/news/366962

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Android Studio 启动“月更”策略：每月发布一次稳定版

谷歌官方宣布，Android Studio 的更新节奏将全面提速，从即日起实行每月发布一次稳定版的策略。过去 Android Studio 稳定版更新周期为每两个月一次，现已缩短为每月一次。此举旨在更快向开发者推送新功能、关键修复和性能优化，避免开发者长时间等待大版本更新。谷歌强调，频率提升不会牺牲稳定性，得益于其长期在测试基础设施上的投入（如 Project Marble）。此外，其他组件节奏不变：Android 模拟器和 Android Gradle 插件仍保持每两个月更新一次。具体版本结构如下：每隔数月发布一个集成最新 IntelliJ 平台的主要版本（如 Android Studio Narwhal）；每月发布“Feature Drop”，即功能投放版，包含重要修复和新特性；部分新功能可直接从 Canary 通道快速进入稳定版。此举标志着 Android Studio 正式迈入“月更时代”，对广大 Android 开发者而言，将显著提升开发效率与体验。

2025-08-18

203

PixiEditor是一款通用的 2D 编辑器，旨在为你提供满足所有 2D 需求的工具和功能。你可以为游戏创建精美的精灵图、动画，编辑图像，甚至创建徽标。所有功能都集中在一个直观熟悉的界面中。 PixiEditor 2.0 默认配备 3 个工具集： Pixel art- 它包含适合像素完美场景的工具 Painting-基本绘画工具、软刷、抗锯齿形状 Vector- 用于创建 vectors 的形状和路径所有工具集均可在一张画布上使用。vector 与 raster混合。导出为 png、jpg、svg、gif、mp4 等格式！

2025-08-18

207

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。