智谱宣布面向部分企业客户提供 GLM-5.1 高速版 API“GLM-5.1-highspeed”。模型输出速度达到 400 tokens/s,适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求极高的场景。
公告称,GLM-5.1 高速版在完整保留 GLM-5.1 能力的基础上,第一次拥有“即问即答”的响应速度。
“这一速度意味着,一位写作者连续伏案数天才能写完的文字量,它在1分钟内便交付完毕;一名工程师埋头敲键盘3天才能完成的开发任务,它能在喝一杯咖啡的时间里完成。”

GLM-5.1 高速版 API“GLM-5.1-highspeed”由智谱 GLM 团队与 TileRT 团队联合打造,在推理引擎、调度系统与底层基础设施三个层面进行了系统级优化:
- 推理引擎层:针对GLM-5.1的架构特点,重写了核心推理路径,有效提升了单卡吞吐能力;
- 调度系统层:通过动态批处理、请求合并和KV缓存调度优化,显著降低高并发场景下的尾延迟;
- 基础设施层:围绕推理集群部署、网络链路、负载均衡进行协同优化,确保400 TPS不是一个“峰值”数字,而是稳定可用的生产级能力。
模型推理速度的理论上限由硬件决定,但真实系统通常距离物理极限仍存在巨大差距。核心问题在于推理框架的调度方式。当前主流框架仍以operator/kernel作为基本调度单元,每个算子都要经历“host启动→读权重→计算→写回→同步”的严格完整链路。当推理进入单token、小batch、多卡TP的场景后,算子被切到微秒级,原本可忽略的调度、访存与同步开销会被迅速放大。
TileRT的设计思路,是彻底抛弃Runtime层的动态调度,在编译期(AOT)将整个计算图静态编排为一个常驻GPU的persistent Engine Kernel。在单卡之内,计算、异步IO与通信被全部拆解为Tile级微任务,整个推理过程只Launch一次Engine Kernel,算子间的中间结果不再写回Global Memory,而是经由Register、Shared Memory与L2 Cache直传,host调度与跨算子同步被悉数压进同一个常驻kernel。在多卡尺度上,TileRT进一步将SM内部的Warp Specialization思路外推到整张8卡NVL拓扑。不同GPU rank不再执行同构逻辑,而是按计算密度与数据依赖被特化为不同worker。
完整技术 blog 链接:https://www.tilert.ai/blog/speed-as-the-next-scaling-law-zh.html