GPUStack v0.6 超重磅更新:vLLM 多机分布式、昇腾 MindIE 等
GPUStack 是一个100%开源的模型服务平台 ,支持 Linux、Windows 和 macOS ,支持 NVIDIA、AMD、Apple Silicon、昇腾、海光、摩尔线程 等 GPU 构建异构 GPU 集群 ,支持 LLM、多模态、Embedding、Reranker、图像生成、Speech-to-Text 和 Text-to-Speech 模型,支持 vLLM、MindIE、llama-box (基于 llama.cpp 与 stable-diffusion.cpp )等多种推理引擎与推理引擎多版本并行 ,支持资源自动调度分配、模型故障自动恢复、多机分布式推理、混合异构推理、推理请求负载均衡、资源与模型监控指标观测、国产化支持、用户管理与 API 认证授权等各种企业级特性 ,提供 OpenAI 兼容 API 无缝接入 Dify、RAGFlow、FastGPT、MaxKB 等各种上层应用框架,是企业建设模型服务平台的理想选择。 GPUStack 一直致力于以最简单易用的方式,帮助用户快速纳管异构 GPU 资源并运行所需的 AI 模型,从而支撑 RAG、AI Agents 以...



Kuikly 跨端框架系统要求: