智谱推出 GLM-5.1 高速版：400 tokens/s-低调大师

智谱推出 GLM-5.1 高速版：400 tokens/s

2026-05-22 56

智谱宣布面向部分企业客户提供 GLM-5.1 高速版 API“GLM-5.1-highspeed”。模型输出速度达到 400 tokens/s，适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求极高的场景。

公告称，GLM-5.1 高速版在完整保留 GLM-5.1 能力的基础上，第一次拥有“即问即答”的响应速度。

“这一速度意味着，一位写作者连续伏案数天才能写完的文字量，它在1分钟内便交付完毕；一名工程师埋头敲键盘3天才能完成的开发任务，它能在喝一杯咖啡的时间里完成。”

GLM-5.1 高速版 API“GLM-5.1-highspeed”由智谱 GLM 团队与 TileRT 团队联合打造，在推理引擎、调度系统与底层基础设施三个层面进行了系统级优化：

推理引擎层：针对GLM-5.1的架构特点，重写了核心推理路径，有效提升了单卡吞吐能力；
调度系统层：通过动态批处理、请求合并和KV缓存调度优化，显著降低高并发场景下的尾延迟；
基础设施层：围绕推理集群部署、网络链路、负载均衡进行协同优化，确保400 TPS不是一个“峰值”数字，而是稳定可用的生产级能力。

模型推理速度的理论上限由硬件决定，但真实系统通常距离物理极限仍存在巨大差距。核心问题在于推理框架的调度方式。当前主流框架仍以operator/kernel作为基本调度单元，每个算子都要经历“host启动→读权重→计算→写回→同步”的严格完整链路。当推理进入单token、小batch、多卡TP的场景后，算子被切到微秒级，原本可忽略的调度、访存与同步开销会被迅速放大。

TileRT的设计思路，是彻底抛弃Runtime层的动态调度，在编译期（AOT）将整个计算图静态编排为一个常驻GPU的persistent Engine Kernel。在单卡之内，计算、异步IO与通信被全部拆解为Tile级微任务，整个推理过程只Launch一次Engine Kernel，算子间的中间结果不再写回Global Memory，而是经由Register、Shared Memory与L2 Cache直传，host调度与跨算子同步被悉数压进同一个常驻kernel。在多卡尺度上，TileRT进一步将SM内部的Warp Specialization思路外推到整张8卡NVL拓扑。不同GPU rank不再执行同构逻辑，而是按计算密度与数据依赖被特化为不同worker。

完整技术 blog 链接：https://www.tilert.ai/blog/speed-as-the-next-scaling-law-zh.html

微信关注我们

原文链接：https://www.oschina.net/news/444203

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

谷歌推出新一代 AI 搜索广告

当用户在搜索引擎上研究复杂话题或发现产品时，Google一直是最主要的流量入口。如今，这个入口正在被AI彻底重构。在刚刚结束的Google Marketing Live活动上，Google发布了一整套基于Gemini大模型的新一代搜索广告格式，旨在将AI能力深度融入广告体验，帮助品牌在用户的研究决策过程中实现更精准的连接。 AI Mode下的全新广告形式当消费者需要评估选择时，他们希望能精确了解某个产品如何满足自己的独特需求。数据显示，75%的用户表示借助AI Mode能够做出更快、更有信心的决策。正是基于这一洞察，Google正在测试两种全新的广告格式，全部由Gemini驱动，能够在提供相...

2026-05-22

50

Haskell Foundation正在经历一场深刻的变革。 5月21日，Haskell Foundation董事会主席Laurent P. René de Cotret代表董事会发布公告，披露了基金会的多项重大变动，包括执行董事离职、组织架构重组以及董事会成员更迭。现任执行董事José Manuel Calderón Marcos在过去数年间一直担任这一角色，是Haskell Foundation历史上任职时间最长的执行董事。公告中写道："José通过个人牺牲，使Haskell Foundation得以度过一些艰难时期；今天...

2026-05-22

47

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。