AIBrix v0.4.0 发布
AIBrix 0.4.0 版本现已发布,这个版本解决了编排和路由方面的关键瓶颈,包括 Prefill/Decode(P/D)分离以及大规模 Expert 并行(EP)在编排和路由上的瓶颈,优化了 AIBrix KV 缓存 V1 连接器,实现了引擎的 KV 事件同步 以及 多引擎支持。 v0.4.0 亮点功能 1. StormService:用于 P/D 分离的编排与感知路由支持 P/D 分离是一种架构,其中预填充 Prefill 和解码 Decode 阶段在不同的 GPU 节点上运行,以提高资源利用率和吞吐量。为了支持 P/D 分离,AIBrix 定义了一个名为 StormService 的自定义资源,用于管理 P/D 分离架构中推理容器的生命周期。StormService 使用三层结构:顶层的 StormService 对象封装服务并跟踪副本数量;中间层的 RoleSet 表示一组角色(如预填充或解码);底层的 Pod 执行实际的推理任务。这种分层设计允许更新从 StormService 向下传播,并且每层的协调器根据需要同步状态,从而实现 P/D 分离服务的原子性扩缩容和滚动更新。...