Kthena v0.4.0 正式发布

2026-04-27 136

Kthena v0.4.0 现已正式发布，进一步简化大语言模型（LLM）工作负载的管理，为你的 AI 基础设施赋能。

Kthena 是一个专为 Kubernetes 设计的云原生、高性能 LLM 推理路由和编排、调度系统。它旨在解决在生产环境中大规模编排、部署和服务 LLM 所面临的核心挑战，通过其独特的超节点拓扑感知的亲和性调度，KV Cache 感知的流量调度、Prefill/Decode 分离路由等高级功能，显著提升 GPU/NPU 资源利用率和吞吐，降低推理延迟，赋予企业前所未有的灵活性和控制力。作为 Volcano 的子项目，Kthena 致力于扩展 AI 训练之外的边界，打造训推一体的完整解决方案。

Kthena v0.4.0 关键特性

更快、更智能的路由器 (Router)

确定且高效的模型选择

此前，由于 Kubernetes 内置的 CRD 校验无法强制实现跨对象的全局唯一性，将多个 ModelRoute 资源映射到同一个模型时可能会引发路由冲突，导致规则匹配出现歧义和目标选择的不一致。Kthena v0.4.0 解决了这一问题。

Kthena v0.4.0 引入了可靠的冲突解决机制。当存在重复的 ModelRoute 时，路由器会确定性地优先选择最早创建（通常是预建）的路由，并将较新的重复项视为较低优先级。这确保了每次路由请求都能获得可预测且稳定的结果。

可配置的Prefix-Cache

统一的标准往往无法满足所有场景的需求。因此，Kthena 将硬编码的Prefix-Cache参数替换成了完全可配置的Prefix-Cache系统。现在可以通过以下参数对Prefix-Cache的行为进行细粒度的控制：

Block Size（哈希处理块大小）： 控制前缀匹配的粒度。较小的块能够提供更精确的匹配，但会增加 CPU 开销；而较大的块处理速度更快，但精准度会下降。
Max Block Limits（最大块限制）： 设定了对给定提示词（prompt）进行哈希处理的上限。避免路由器在处理过长的传入提示词时，出现延迟激增。
Cache Capacity（缓存容量）： 定义了路由器可以记住的前缀条目数量。增加此值可以提高多样化工作负载的缓存命中率，代价是略微增加内存占用。
Top-K Results（Top-K 结果数）： 决定在匹配成功时考虑多少个候选实例。调整此参数有助于实现更好的负载均衡，确保流量平稳地分布在多个节点上，而不是让单个活跃实例过载。

通过微调这些设置，可以定制 Kthena Router的Prefix-Cache，以更好地适配多样的模型和业务 LLM 工作负载。

细粒度、资源高效的滚动更新

过去，Kthena 能在整个 ServingGroup 级别执行滚动更新。但对于大规模的大型语言模型应用而言，完全重建一个 ServingGroup 往往是一个极其消耗资源且耗时的过程。

为了解决这个问题，引入了基于 Role 的滚动更新机制。当只有特定的 Role 需要变更时，无需再更新整个 ServingGroup（这也是在恢复策略中引入 RoleRecreate 的原因）。从 v0.4.0 开始，可以动态调整 rolloutStrategy——这将大幅降低升级时的资源消耗，并显著缩短升级时ServingGroup的不可用时间。

支持SGLang和vLLM的PD分离部署

PD分离部署架构已经成为了大规模LLM服务的标准架构。在Kthena v0.4.0中，Kthena的modelServing和Router现已通过全面验证，能够良好地支持 vLLM 和 SGLang的PD分离部署。用户可以根据需求通过 ModelServing 配置 Prefill 和 Decode。并结合 ModelServer 中的 pdGroup 配置实现PD感知的智能路由，从而轻松构建高效的PD分离推理服务。

提升可观测性

Role 状态可见性

为了最大限度地降低 kube-apiserver 的负载，Kthena 的 ModelServing 使用了本地存储缓存 ServingGroup 和 Role 的状态。虽然这种方式效率很高，但项目团队也意识到，这限制了Kthena的可观测性，使整个reconcile过程中ServingGroup和Role的状态变化变成了一个黑盒，无法观测。

在 v0.4.0 中，打破了这种“黑盒”状态。现在，能够直接通过 Kubernetes Events 暴露 Role 的状态，从而显著提升了 ModelServing 的可观测性。在未来的规划中，还计划根据用户需求将关键的 Role 信息直接嵌入到 ModelServing 的 Status 中，为你提供全面且透明的部署状态掌控能力。为开发者提供debug-port，可以直接拉取本地缓存中的ServingGroup和Role的状态。

全面的访问日志

现在，Router 会生成更详细的访问日志，为每一个请求捕获更丰富多样的路由元数据 (routing metadata)。以下是 Kthena v0.4.0 Router 日志的一个示例：

[2026-04-16T07:33:08.435627146Z] "POST /v1/chat/completions HTTP/1.1" 200 model_name=deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B model_router=deepseek-r1-1-1.5b model_server=deepseek-r1 selected_pod=deepseek-r1-1-1.5b-6989c66877-p6jvv request_id=ad683d1b-6011-4b0f-b9b5-cbb18d43c57b gateway=dev/default http_route=kthena-e2e-gie-8eoas/llm-route inference_pool=kthena-e2e-gie-8eoas/deepseek-r1-1-1.5b tokens=10/38 timings=3ms(0+2+0)

与之前的版本相比，新增了 gateway、http_route 和 inference_pool 字段，以便对Gateway及Gateway Inference Extension的流量提供丰富的信息。

开放的生态系统

致力于与广大的开源社区一道，将 Kthena 建设成为一个开放、包容且繁荣的项目。

支持 ModelScope (魔搭社区)

v0.4.0 中在 Kthena 的模型下载器中扩展了对 ModelScope 协议的支持。这使得用户和运维管理人员可以更加灵活地选择符合其项目需求的模型仓库。

微信关注我们

原文链接：https://www.oschina.net/news/437504

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

DockMaster Pro v1.4.0：Launchpad、自定义右键菜单、拼音首字母搜索与窗口预览优化正式上线

大家好，DockMaster Pro 今天正式发布 v1.4.0 版本。本次更新带来了自定义 Launchpad、拼音首字母搜索、字母索引侧边栏、per-app 自定义右键菜单插件、窗口预览优化，以及使用统计与提醒插件化改造等多项功能。自定义 Launchpad 新增自定义 Launchpad 覆盖层，采用网格布局展示应用，提供字母索引侧边栏用于快速定位，支持拼音首字母模糊搜索，覆盖层拥有独立的自绘 Dock 图标。自定义右键菜单插件新增 per-app 自定义右键菜单插件，支持为每个应用单独配置右键菜单项，灵活扩展 Dock 的上下文操作能力。窗口预览优化窗口预览功能经过多项优化...

2026-04-27

154

Spring Shell 4.0.2 现已发布。与 v3 相比，此版本解决了社区反馈的与 v3 版本相比存在的一些对齐问题，同时修复了若干错误并进行了优化，以提升框架的整体稳定性和性能。具体更新内容如下： New Features 添加对类级别组命令的支持，与 v3 版本一致 #1266 添加对 Spring Shell 4 中请求输入的测试命令的支持#1292 为多值输入添加指定参数个数的功能 #1263 对 help 输出中的命令名称进行排序 #1279 Bug Fixes 非交互式运行器的退出代码总是为 0 #1339 内置命令缺少帮助信息 #1335 子命令中 Boolean 标志在...

2026-04-27

114

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。