CubeFS v3.5.3 已发布,具体更新内容如下:
主要特性:
1、Client:针对大语言模型(LLM)和大语言多模态模型(MLLM)训练,支持高吞吐(LLM checkpoint),可容忍计算、存储分离训练高延时场景(8ms+)。
- 全异步刷新能力,大幅提升大文件顺序写性能,写入速度在1.2GB/s以上,训练节点(H20高配)单客户端大文件并发(10个)写入可达10GB/s+。
- 优化客户端预读能力的内存占用和性能,单个文件的读取速度在2GB/s以上;
- 客户端元数据动态预热能力,对于小文件元数据提前预热;
注:以上特性启用、调优需参考社区最新文档。
2、分布式缓存系统可独立提供服务
- FlashGroupManager:将 Master 的分布式缓存管理能力独立为服务,负责 FlashNode 注册/注销与路由下发等,实现与 Master 解耦,提升伸缩性与稳定性。
- RemotecacheConfig:面向FlashGroupManager的运维管理工具,提供 FlashGroup 创建/删除、信息查询与状态查看等功能。
- FlashNode:支持对象存储数据块的上传/下载服务;支持对象存储数据块的热度统计;支持文件存储指定路径的预热能力。
- Client:提供FlashNode面向对象存储数据块的服务上传/下载SDK。
Enhance:
- FlashNode:补充命中读延迟、读限流次数等运营指标,便于监控告警与容量/限流调优。
- Master:查询磁盘或者节点下线进度的时候显示剩余dp数;多磁盘并发下线时增加对冲突dp的重试等dp下线的优化,提高自动化迁移成功率。
Bugfix:
- 修复两副本dp下线过程中如果发生重启,下线token可能会被消费两次的问题。
- 修复了坏盘上报未显示上报时间距当前时间的时间间隔的问题。
- 修复磁盘标记下线失败时仍可能有部分dp未从下线队列中移除,导致对后续磁盘下线造成影响的问题;
- 修复两副本dp由于leader change导致磁盘和节点下线进度展示不正确的问题;修复客户端预读时,部分命中场景时偏移计算错误的问题。
- 修复客户端在预读和分布式缓存同时开启时,由于预读内存不足导致的读取错误。
- 修复其他一些历史相关缺陷和问题
3.6.0 版本更新预告:
- metanode 元数据支持rocksdb管理
- 支持机架隔离能力
- 支持nodeset和rack自动均衡
- mp 支持使用learner模式迁移
- datanode 支持磁盘维度自适应限流
- mp 元数据支持自愈能力
- 分布式缓存支持多域管理
详情可查看:https://github.com/cubefs/cubefs/releases/tag/v3.5.3