Kubeflow Trainer v2.2 发布-低调大师

Kubeflow Trainer v2.2 发布

2026-04-20 65

Kubeflow 团队正式宣布推出 Trainer v2.2 版本。v2.2 版本的发布进一步彰显了团队致力于拓展 Kubeflow Trainer 生态系统的决心——通过对 JAX、XGBoost 和 Flux 的原生支持，更好地满足开发者们的实际需求，同时提升TrainJob的可观测性。

v2.2版本的主要亮点包括：

为 JAX 和 XGBoost 的运行环境提供顶级支持，在 Kubernetes 上实现原生分布式训练。这标志着 Trainer 项目的一个重要里程碑：实现了与 Training Operator v1 CRD的全面兼容——PyTorchJob、MPIJob、JAXJob 和 XGBoostJob现已统一归入单一的 TrainJob 抽象之中。
增强了训练的可观测性，使得进度和指标能够直接从训练脚本传播到 TrainJob 状态。Hugging Face Transformers 已经与 KubeflowTrainerCallback 集成，以自动实现这一功能。
Flux 运行时支持，将 HPC 工作负载引入 Kubernetes 并改善了 TrainJob 中的 MPI 启动过程。
TrainJob activeDeadlineSeconds API，为训练作业提供了明确的超时策略。
RuntimePatches API，引入了一种更灵活和可扩展的方式，用于从 TrainJobs 自定义运行时配置。

现在，只需一条命令即可安装 Kubeflow Trainer 控制平面及其训练运行环境：

重大变更

本次发布版本引入了一系列架构改进和重大变更，为更具可扩展、模块化的Trainer奠定了基础。升级至Trainer v2.2版本时，建议务必查看以下内容：

将 PodTemplateOverrides 替换为 RuntimePatches API

PodTemplateOverrides 已被 RuntimePatches API 所取代，以支持管理器级别的自定义设置，并避免当多个控制器同时对同一TrainJob进行修改时发生冲突。如果你在TrainJob的配置文件或SDK代码中使用了PodTemplateOverrides，那么需要将其迁移到基于manager-keyed的RuntimePatches结构。

从 Torch MLPolicy API 中移除 numProcPerNode 字段

Torch MLPolicy 中的 numProcPerNode 字段已被删除。现在，每个节点的进程配置直接通过容器资源进行处理，因此任何明确设置 numProcPerNode 的 TrainJob 显式配置或 SDK 调用在升级到 v2.2 版本之前都需要进行更新。

移除弹性策略API

在 Trainer v2.2 版本中，弹性策略 API 已从 MLPolicy 中移除。此版本暂未提供弹性训练功能，开发团队正积致力于重新设计并实现该功能，以供后续版本使用。如果你的 TrainJob 依赖于弹性训练配置，建议暂缓升级，直至相关工作完成。

部分 TrainJob API 字段现在是不可变的

现在，多个TrainJob 规范字段在作业创建后会被强制设为不可变状态。这意味着，在 TrainJob 运行期间，对诸如 .spec.trainer.image 等字段的修改将被立即拒绝，而不再是在 JobSet 控制器级别悄然失败。如果您的工作流依赖于在运行中的 TrainJob 上更新这些字段，那么这些更新将被准入 Webhook 拒绝。请检查您的 TrainJob 更新逻辑，以确保其与我们 v2.2 中的不可变性策略兼容。

发布说明：https://github.com/kubeflow/trainer/releases/tag/v2.2.0
2026年发展路线图的完整列表：https://github.com/kubeflow/trainer/pull/3242

微信关注我们

原文链接：https://www.oschina.net/news/434593

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Notepad-- v3.7.2 已经发布，文本编辑器

Notepad-- v3.7.2 已经发布，文本编辑器此版本更新内容包括： windows Notepad--v3.7.2-plugin-Installer.exe 是win10下面的插件版安装包，会关联右键菜单等。 Notepad--v3.7.2-win10-portable.zip 是绿色免安装版本，解压即用，不会关联右键菜单注册表。其余系统版本暂时见3.7.1，历史版本集合见百度网盘： https://pan.baidu.com/s/5MpFGSKtiH0wHb2_H-onYSw 3.7.2 修改记录： 1 tab 右键增加删除文件的菜单项。 2 优化快速文本模式下的换行断句逻辑。 ...

2026-04-20

65

VASSAL Engine 3.7.21 版本现已发布。VASSAL 是一个游戏引擎，用于在线构建棋盘游戏和纸牌游戏，构建的游戏可在 Internet 上或通过电子邮件实时运行。VASSAL Engine 可在所有平台上运行，并且是免费的开源软件。具体更新内容包括： IMPORTANT 如果你使用的是 MacOS 14，请确保你使用的是 14.4 或更高版本，以避免 MacOS 中存在的一个 bug 导致 Vassal 无法启动。早期版本的 Vassal 无法打开 3.7 中保存的模块。官方建议用户保留计划在 3.7 中修改的任何 3.7 之前的模块的备份副本。之前运行正常的功能可能已经失...

2026-04-20

49

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。