小米推出 MiMo-V2.5-Pro-UltraSpeed：将 1T 参数模型的生成速度推向 1000 TPS-低调大师

小米推出 MiMo-V2.5-Pro-UltraSpeed：将 1T 参数模型的生成速度推向 1000 TPS

2026-06-09 55

Xiaomi MiMo 联合 TileRT 宣布推出 Xiaomi MiMo-V2.5-Pro 的 UltraSpeed 模式，声称在单台标准 8 卡通用 GPU 节点上，首次将万亿参数大模型的文本生成速度提升至 1000 tokens/s。

MiMo-V2.5-Pro-UltraSpeed API 同步上线，采用限时体验价，定价为 MiMo-V2.5-Pro 的 3 倍，同时提供输出速度的约 10 倍提升。（仅支持 API 体验，暂不支持 Token Plan）

本次 MiMo-V2.5-Pro-UltraSpeed 采取申请制限时开放，申请通过的用户可限时接入 API 体验，时间限 2026 年 6 月 9 日至 6 月 23 日 23:59。申请入口：https://platform.xiaomimimo.com/ultraspeed

通过审核的用户也可获得限时免费的 Chat 体验（两周开放窗口内有效），体验入口：https://ultraspeed.xiaomimimo.com

公告称，为保障资源受限条件下的体验质量与使用公平性，试用服务规则为：每个账号每日最多成功进入队列 10 次；单次会话时长上限 30 分钟；如会话空闲超过 5 分钟，系统将自动释放资源。

根据介绍，模型侧针对通用硬件的带宽瓶颈，进行了 FP4 量化，大幅缩减模型体积并减少访存开销；同时引入基于块级 masked 并行预测的高效推测解码 DFlash，大幅提升单次验证的 Token 接受长度。系统侧 TileRT 完美适配算法的动态特性，为全新的量化和推测解码流程量身定制专项优化的编译引擎与计算核。

项目团队选择只对 MoE Expert 进行参数 FP4 量化，而对其他模块则保留原有精度。通过这样的 FP4 QAT（量化感知训练），在大幅缩减模型体积、榨干硬件带宽的同时，使模型的整体能力与原模型基本持平。如下图所示：

效果展示

10 秒做一个贪吃蛇小游戏

1 分钟复刻一个 MacOS 系统

微信关注我们

原文链接：https://www.oschina.net/news/454718

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

苹果公布全新 AI 架构：基于 Google Gemini 构建 Apple Foundation Models

苹果在WWDC 2026期间公布了Apple Intelligence平台的重大架构升级，核心是基于Google Gemini系列模型技术、与Google深度合作开发的Apple Foundation Models。这一合作被苹果形容为"深度"合作，旨在为Apple Intelligence带来"巨大升级"——在理解能力、推理能力及多模态支持上达到前沿水平。新架构的核心是苹果基础模型（Apple Foundation Models），这些模型经过合作定制，可同时运行于设备端和苹果现有的Private Cloud Compute服...

2026-06-09

55

苹果在WWDC 2026期间正式发布了Core AI框架，这是一款专为Apple芯片设计的设备端AI模型运行框架，开发者可通过它在自己的应用中构建、运行和部署AI模型。Core AI的核心理念是将最新模型架构和推理技术与苹果自研芯片的异构计算能力相结合——CPU、GPU和神经网络引擎（Neural Engine）协同工作，根据任务负载自动分配计算资源。 Core AI采用Swift API设计，常用任务可以直接调用高层接口完成，同时在需要时也支持对模型专门化（specialization）、缓存策略和推理性能进行精细控制。框架与Xcode深度集成，提供Core AI调试...

2026-06-09

57

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。