首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/398912

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

月之暗面总裁张予彤透露 Kimi 新模型即将发布

月之暗面 Kimi 总裁张予彤出席世界经济论坛 2026 年年会时透露了 Kimi 的下一步动态,称“我们很快就会发布一个新模型。” 据张予彤介绍,Kimi 仅使用美国顶尖实验室 1% 的资源,就开发出 Kimi K2、Kimi K2 Thinking 这样全球领先的开源模型,甚至在部分性能上超越美国的顶尖闭源模型。“从创业第一天起我们就清醒地意识到,中国初创公司没有随意堆砌算力的条件。”她表示,“这迫使我们通过大量的基础研究创新来换取极致的效率。” 张予彤透露,Kimi 投入了大量精力将工程化思维引入研究环节,确保所有算法创新都能在生产系统中大规模稳定运行。例如,Kimi 是全球首个在大型语言模型训练中跑通 Muon 优化器的公司;同时,自研的线性注意力机制(Kimi Linear)在处理速度上已显著超越传统的全注意力系统,实现了效率的跨越式提升。 在论坛问答环节,当被问及今年是否会出现新的“中国 AI 时刻”时,张予彤笑着回应:“我们很快就会发布一个新模型。”

vLLM 推理 GPU 选型指南:显存、KV Cache 与性能瓶颈全解析

为 vLLM 推理有效规划 GPU 规模并进行合理配置,首先需要清晰理解大语言模型处理的两个基本阶段------Prefill(预填充)和 Decode(解码),以及这两个阶段对硬件提出的不同需求。 本指南深入剖析了 vLLM 运行时行为的内部机制,阐明了内存需求、量化和张量并行等核心概念,并提供了将 GPU 选型与实际工作负载相匹配的实用策略。通过探究这些因素之间的相互作用,您将能够准确预判性能瓶颈,并在 GPU 基础设施上部署大型语言模型时,做出明智且具有成本效益的决策。 vLLM 运行时行为剖析:预填充阶段 vs 解码阶段 预填充阶段("读取"阶段) 这是任何请求的第一步。vLLM 接收整个输入提示(用户查询 + 系统提示 + 任何 RAG 上下文),并以高度并行的方式一次性处理所有内容。 过程:模型"读取"上下文,并用该上下文的数学表示填充键值(KV)缓存。 瓶颈 :由于并行处理数千个令牌,此阶段几乎总是受限于内存带宽。速度上限取决于 GPU 将巨大的权重矩阵从显存移动到计算核心的速度。有关 GPU 性能特性的更多信息,请参阅我们的 GPU 性能优化指南。 实际影响:这决定了首...

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

用户登录
用户注册