Xiaomi MiMo 联合 TileRT 宣布推出 Xiaomi MiMo-V2.5-Pro 的 UltraSpeed 模式,声称在单台标准 8 卡通用 GPU 节点上,首次将万亿参数大模型的文本生成速度提升至 1000 tokens/s。
MiMo-V2.5-Pro-UltraSpeed API 同步上线,采用限时体验价,定价为 MiMo-V2.5-Pro 的 3 倍,同时提供输出速度的约 10 倍提升。(仅支持 API 体验,暂不支持 Token Plan)
本次 MiMo-V2.5-Pro-UltraSpeed 采取申请制限时开放,申请通过的用户可限时接入 API 体验,时间限 2026 年 6 月 9 日 至 6 月 23 日 23:59。申请入口:https://platform.xiaomimimo.com/ultraspeed
通过审核的用户也可获得限时免费的 Chat 体验(两周开放窗口内有效),体验入口:https://ultraspeed.xiaomimimo.com
公告称,为保障资源受限条件下的体验质量与使用公平性,试用服务规则为:每个账号每日最多成功进入队列 10 次;单次会话时长上限 30 分钟;如会话空闲超过 5 分钟,系统将自动释放资源。
根据介绍,模型侧针对通用硬件的带宽瓶颈,进行了 FP4 量化,大幅缩减模型体积并减少访存开销;同时引入基于块级 masked 并行预测的高效推测解码 DFlash,大幅提升单次验证的 Token 接受长度。系统侧 TileRT 完美适配算法的动态特性,为全新的量化和推测解码流程量身定制专项优化的编译引擎与计算核。
项目团队选择只对 MoE Expert 进行参数 FP4 量化,而对其他模块则保留原有精度。通过这样的 FP4 QAT(量化感知训练),在大幅缩减模型体积、榨干硬件带宽的同时,使模型的整体能力与原模型基本持平。如下图所示:

效果展示

10 秒做一个贪吃蛇小游戏

1 分钟复刻一个 MacOS 系统