字节跳动开源 AIBrix:专为 vLLM 打造的可扩展、高性价比控制面
vLLM 日前宣布了由字节跳动开发的 AIBrix 大模型推理系统正式开源,为 vLLM 推理引擎提供可扩展且高性价比的控制面。
AIBrix 作为一个开源项目,旨在为构建可扩展的推理基础设施提供核心组件。它提供了一套云原生解决方案,专注于优化大语言模型(LLM)推理的部署、管理和扩展能力,并针对企业级需求进行了深度适配。
首版 AIBrix 聚焦以下核心功能:
- 高密度 LoRA 管理:简化对轻量级的、低秩模型适配的支持;
- LLM 网关和路由:高效管理和分配多个模型和副本的流量;
- 针对 LLM 应用的自动扩展器:根据实时需求动态调整推理资源;
- 统一 AI 运行时:多功能 sidecar 容器,支持指标标准化、模型下载和管理;
- 分布式推理:可扩展架构,支持多节点大规模推理负载;
- 分布式 KV 缓存:支持高容量、跨引擎的 KV 重用;
- 高性价比异构资源调度:支持混合 GPU 推理,在保障 SLO 的前提下降低成本;
- GPU 硬件故障检测:主动检测 GPU 硬件异常。
AIBrix 的愿景与行业合作
AIBrix 基于“系统与推理引擎协同设计”的理念,核心目标是以云原生方式在 Kubernetes 上构建可扩展的推理系统。展望未来,项目团队计划通过以下举措继续探索协同设计方法:
- 扩展分布式 KV 缓存:支持更广泛的场景,如预填充(Prefill)与解码(Decode)聚合、请求迁移、跨实例 KV 复用等,提升内存效率与推理灵活性;
- 引入传统资源管理原则:将 QoS(服务质量)、优先级调度、公平性等机制应用于 LLM 推理,实现请求级多租户,确保资源高效分配;
- 基于性能天花板的性能分析:通过性能剖析提升计算效率,为多样化负载提供强 SLO 保障的推理性能。
