小米开源 Xiaomi MiMo-V2-Flash:高效推理、代码与 Agent 基座模型
小米正式宣布开源 Xiaomi MiMo-V2-Flash,这是小米专为极致推理效率自研的总参数 309B(激活15B)的 MoE 模型,通过引入 Hybrid 注意力架构创新及多层 MTP 推理加速,在多个 Agent 测评基准上进入全球开源模型 Top 2;代码能力超过所有开源模型,比肩标杆闭源模型 Claude 4.5 Sonnet,但推理价格仅为其 2.5% 且生成速度提升至 2 倍,成功将大模型效果和推理效率推向极致。
MiMo-V2-Flash 模型架构如下:
MiMo-V2-Flash 模型结构要点:
- 混合注意力
采用 5:1 的 Sliding Window Attention (SWA) 与 Global Attention(GA)混合结构,128 窗口大小,原生 32K 外扩 256K 训练。经前期大量实验发现,SWA 简单、高效、易用,展现了比主流 Linear Attention 综合更佳的通用、长文和推理能力,并提供了固定大小的 KV Cache 从而极易适配现有训练和推理 Infra 框架。
- MTP推理加速
引入 MTP (Multi-Token Prediction) 训练提升基座能力的同时,在推理阶段通过并行验证 MTP Token,打破了传统 Decoding 在大 Batch 下的显存带宽瓶颈,实测在 3 层 MTP 情况下可实现 2.8~3.6 的接收长度和 2.0~2.6 的实际加速比。
整体而言,得益于模型结构与训推 Infra 的深度融合与创新,MiMo-V2-Flash 可以在不同的硬件上通过调优 Batch Size 和 MTP 层数来最大化释放 GPU 算力,从而展现出更高的吞吐,并维持优秀的低时延以及极致推理性能。
Xiaomi MiMo-V2-Flash 模型权重和推理代码均全面开源。API 限时免费,体验 Web Demo 已上线。
访问 platform.xiaomimimo.com,可以一键兼容 Claude Code、Cursor、Cline、Kilo Code 等框架。
即刻登录 MiMo Studio Web:aistudio.xiaomimimo.com,免费体验模型。


