字节跳动开源 AIBrix:专为 vLLM 打造的可扩展、高性价比控制面
vLLM 日前宣布了由字节跳动开发的 AIBrix 大模型推理系统正式开源,为 vLLM 推理引擎提供可扩展且高性价比的控制面。 AIBrix 作为一个开源项目,旨在为构建可扩展的推理基础设施提供核心组件。它提供了一套云原生解决方案,专注于优化大语言模型(LLM)推理的部署、管理和扩展能力,并针对企业级需求进行了深度适配。 首版 AIBrix 聚焦以下核心功能: 高密度 LoRA 管理:简化对轻量级的、低秩模型适配的支持; LLM 网关和路由:高效管理和分配多个模型和副本的流量; 针对 LLM 应用的自动扩展器:根据实时需求动态调整推理资源; 统一 AI 运行时:多功能 sidecar 容器,支持指标标准化、模型下载和管理; 分布式推理:可扩展架构,支持多节点大规模推理负载; 分布式 KV 缓存:支持高容量、跨引擎的 KV 重用; 高性价比异构资源调度:支持混合 GPU 推理,在保障 SLO 的前提下降低成本; GPU 硬件故障检测:主动检测 GPU 硬件异常。 AIBrix 的愿景与行业合作 AIBrix 基于“系统与推理引擎协同设计”的理念,核心目标是以云原生方式在 Kuberne...

