字节跳动开源 Godel-Rescheduler
字节跳动宣布开源 Godel-Rescheduler,一个基于全局最优调度策略的重调度框架。不仅能识别集群中的异常节点和任务,还能智能推荐任务到最合适的位置,并通过图算法生成详细的迁移步骤,确保集群的整体稳定性,真正实现全局最优调度。
Godel-Rescheduler 由两个核心模块组成:Policy Manager 和 Movement Manager。其中,Policy Manager 负责输出重调度决策,而 Movement Manager 则负责拆解并执行这些决策。整个框架的目标是通过重调度,使集群朝向全局最优状态发展。
目前,字节跳动已经成功将 Godel-Rescheduler 应用到多个内部项目中,支持多种重调度策略的协同工作。例如:
- 合并部署重调度:优化上下游应用实例在相同节点上的调度。
- 负载均衡重调度:在负载、内存带宽、网络带宽等方面进行优化。
- 碎片整理重调度:有效减少 CPU、GPU 等资源的碎片率等。
在实际应用中,Godel-Rescheduler 已帮助字节跳动的数万卡 GPU 集群将碎片率控制在 5% 以下,同时在大规模混合部署集群中,热点节点比例控制在 0.1% 以下。
接下来,Godel-Rescheduler 将持续扩展和优化:
- 更多重调度策略:引入更多实时数据,以丰富调度策略的多样性。
- 稳定性建设:在优化调度效果的同时,持续降低重调度对集群稳定性的影响。
- 扩展性优化:进一步简化策略接入方式,提升插件化能力。
- 通用指标构建:制定通用的重调度评价指标,以全面评估调度效果。
- 优化可解释性:增强重调度算法的可解释性,帮助用户更好地理解调度决策的依据。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
微软开源 DeepSeek-R1 魔改版「MAI-DS-R1」:响应 99% 敏感提示、风险降 50%
微软今天开源了一款“魔改版”的 DeepSeek-R1 模型「MAI-DS-R1」,其在保留原有推理性能的基础上进行了大幅度增强,尤其是在响应和屏蔽词方面有了显著改进: MAI-DS-R1 可以响应 99.3% 的敏感话题提示,比原版 R1 提升了2倍,这对于政治学术研究、社会问题、伦理道德研究等帮助巨大;但在安全风险大幅度降低,比原版 R1 降低了 50%。 据介绍,MAI-DS-R1 是后训练优化的 DeepSeek-R1 模型,微软在训练 MAI-DS-R1 的过程中,从大约 350000 个被屏蔽的主题示例中,收集和筛选查询关键词,将这些关键词转化为多个问题,并翻译成不同语言;还通过 DeepSeek R1 和内部模型为这些问题生成答案和思维链。 此外,训练数据中还纳入了来自Tulu3 SFT数据集的 110K 个安全和违规示例,这些示例涵盖了 CoCoNot、WildJailbreak 和 WildGuardMix 等内容。 https://huggingface.co/microsoft/MAI-DS-R1 随后,微软对 MAI-DS-R1 进行了综合评估。在敏感话题响应方...
- 下一篇
如何合理规划 Elasticsearch 的索引
一、背景 随着ES在业务场景中的使用逐渐增多,平台对ES集群的稳定性、管理、运维的压力逐渐增大,通过日常的运维情况来看,发现用户对ES的了解熟悉程度参差不齐,经常性的遇到索引创建不规范,或者参考别人索引的创建脚本进行创建索引,对索引没有一个比较清晰的认知,对索引结构的规划也寥寥无几,为此,平台使用了一些列手段来帮助用户提前合理规划模板,比如索引、模板的创建接入飞书审批流,平台侧会逐一结合业务场景和ES集群情况详细沟通确定索引或者模板结构;又比如ES内核增加业务不停服的动态扩分片能力,旨在进行不合理索引的治理提升ES集群稳定性(索引一旦创建分片是不能修改的),我们内部改动ES源码实现了不停服动态扩分片。 因此有必要从ES的索引讲起,让大家对ES的索引从概念、原理到使用有一个清晰的认知,希望日常业务场景中用到ES的同学能够抽时间读一下。当然文章避免不了存在主观的分析,大家可以在文章底部进行评论或者私聊我们,一起探讨。好了废话不多说了,现在开始介绍。 二、什么是index(索引) 下面会针对索引的组成和基本结构结合官方文档逐一介绍。 基本概念 index(索引)是索引是具有相似特征的文档(D...
相关文章
文章评论
共有0条评论来说两句吧...