技术解码:Character.ai 如何实现大模型实时推理性能 2 倍提升
Character.ai 是一家领先的 AI 娱乐平台,全球用户约 2000 万。Character.ai 团队希望提升 GPU 性能,并降低推理成本。其应用需要在大规模场景下保持极低延迟。为实现这一目标,Character.ai 找到了 DigitalOcean 和 AMD 。三方紧密合作,对 AMD Instinct™ MI300X 和 MI325X GPU 平台进行了深度优化,使生产环境的推理吞吐量提升了 2 倍。 在优化配置的情况下,DigitalOcean 在保证出色的 p90 首 Token 响应速度与持续 Token 生成吞吐量的同时,实现了单节点更高的请求密度,整体性能超过了此前基于通用、未优化 GPU 基础设施的部署方案。 这些提升来自一系列平台级优化,包括: 面向大型 MoE 模型的并行化策略、 高效的 FP8 执行路径、 结合 AITER 的优化内核、 感知拓扑结构的 GPU 分配方式, 以及基于 DigitalOcean Kubernetes(DOKS)的生产级编排能力。 这些能力共同帮助 Character.ai 在不增加运维负担的前提下,实现了可预测...