Kog AI 发布推理引擎：标准 GPU 实现 3000 tokens/s 单请求速度-低调大师

Kog AI 发布推理引擎：标准 GPU 实现 3000 tokens/s 单请求速度

2026-06-01 38

Kog AI 日前发布了 Kog Inference Engine（KIE）技术预览版，在 8× AMD MI300X GPU 上实现单请求 3000 tokens/s 的生成速度，8× NVIDIA H200 上达到 2100 tokens/s。更关键的是，这一成绩在未使用量化、投机解码、剪枝或 KV Cache 压缩的前提下达成。

为什么单请求速度突然重要了

传统推理基准测试通常关注聚合吞吐量和首 token 延迟，但这两个指标都不能准确反映 AI Agent 的实际需求。Agentic 软件工程本质是一个顺序循环：检查、规划、编辑、测试、修订——每一步都依赖前一步的结果。如果一个 Agent 需要在单个工作流中生成 50000 个 token，100 tokens/s 需要约八分钟，而 3000 tokens/s 只需不到二十秒。这个差异直接决定了什么样的产品可以成立。

内存带宽是真正的瓶颈

在 batch size 为 1 时，自回归解码由矩阵-向量运算主导。每个生成的 token 都必须将模型的所有活跃权重从 GPU 内存层次结构中搬运一次。FP16 精度下，一个模型权重占两个字节，每次乘加运算约产生 1 FLOP/byte。现代 AI GPU 提供的峰值 FLOPS 是 HBM 带宽的数百倍——NVIDIA H200 的峰值配比约为 400 FLOPS/byte。这意味着 token 生成速度在达到 FLOPS 限制之前，就已经被内存带宽牢牢限制住了。

对于一个 FP16 下约 4 GB 活跃权重的 2B 参数模型，理论上限为：8× H200 约 7700 tokens/s，8× MI300X 约 8400 tokens/s。KIE 在 MI300X 上实现的 3000 tokens/s 意味着约 36% 的内存带宽利用率。

标准推理栈丢失的微秒

在 3000 tokens/s 时，每个 token 的预算仅有约 333 微秒。一个 25 层的模型，每层如果多耗费 1 微秒，就会消耗 7.5% 的时间预算。

传统抽象栈——高层框架中的模型图逻辑，逐层降低为多个 kernel，由 CPU 运行时调度——对于 333 微秒的 token 预算来说过于笨重。仅 kernel 启动和清理成本约 4.5 微秒，十个 kernel 乘以 25 层就产生 1125 微秒的开销，直接将理论上限压到约 890 tokens/s。

Kog 的解决方案是单内核运行时（Monokernel Runtime）：token 生成作为单一持久 GPU 程序运行，消除所有 kernel 边界和 CPU 侧调度对关键路径的影响。此外还有定制的 KCCL GPU 通信层（延迟低于 3 微秒）、IOD 感知的缓冲区放置、以及针对缓存的 kernel 设计。

现状与路线图

KIE 技术预览已在 playground.kog.ai 上线，运行的模型为 Laneformer 2B，在 HumanEval 编程基准上得分 50%，在 NVIDIA Nemotron v1 和 v2 数据集上预训练了 6T token。

下一步将支持大型第三方 MoE 模型。Kog 预估，在 36% 内存带宽利用率下，8× H200 节点运行 GPT-OSS-120B（5.1B 活跃参数）可实现约 2200 tokens/s，DeepSeek-V4-Flash（13B 活跃参数）约 1160 tokens/s。随着可用 HBM 带宽增长和 Kog 技术栈成熟，大型前沿 MoE 模型的速度有望达到 1000-5000 tokens/s/request。

参考来源：https://blog.kog.ai/real-time-llm-inference-on-standard-gpus-3-000-tokens-s-per-request/

微信关注我们

原文链接：https://www.oschina.net/news/450396

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

rsync 维护者用 AI 写代码引起社区愤怒，一条 GitHub issue 折射开源信任危机

一条标题为"Please Do Not Vibe Fuck Up This Software"的 GitHub issue，让 rsync 这个经典同步工具陷入了开源社区的风暴中心。事件起因 rsync 的维护者（网名 tridge）在项目中引入了 AI 辅助开发，随后有用户报告 rsync 的最新版本出现了回归问题：增量备份失败、CPU 占用率异常飙升。这些问题迅速激起了社区的愤怒——有人直接开 issue，用"Vibe Fuck Up"这个词表达对维护者的不满，认为他用 AI 写代码太过轻率，把一个稳定可信赖的工具当成了实验...

2026-06-01

42

企业 AI 落地的需求正在发生结构性变化——从单模型试点走向多模型生产系统。上周，AI 路由平台 OpenRouter 宣布完成 1.13 亿美元 B 轮融资，由 Alphabet 旗下独立增长基金 CapitalG 领投，NVIDIA 风险投资部门 NVentures、ServiceNow Ventures、MongoDB Ventures、Snowflake Ventures、Databricks Ventures 以及 AMP PBC 和 Pace Capital 参投，现有投资者 Andreessen Horowitz 和 Menlo Ventures 跟投。 ...

2026-06-01

41

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。