小米开源 Xiaomi MiMo-V2-Flash:高效推理、代码与 Agent 基座模型
小米正式宣布开源Xiaomi MiMo-V2-Flash,这是小米专为极致推理效率自研的总参数 309B(激活15B)的 MoE 模型,通过引入 Hybrid 注意力架构创新及多层 MTP 推理加速,在多个 Agent 测评基准上进入全球开源模型 Top 2;代码能力超过所有开源模型,比肩标杆闭源模型 Claude 4.5 Sonnet,但推理价格仅为其2.5%且生成速度提升至2 倍,成功将大模型效果和推理效率推向极致。 MiMo-V2-Flash 模型架构如下: MiMo-V2-Flash 模型结构要点: 混合注意力 采用 5:1 的 Sliding Window Attention (SWA) 与 Global Attention(GA)混合结构,128 窗口大小,原生 32K 外扩 256K 训练。经前期大量实验发现,SWA 简单、高效、易用,展现了比主流 Linear Attention 综合更佳的通用、长文和推理能力,并提供了固定大小的 KV Cache 从而极易适配现有训练和推理 Infra 框架。 MTP推理加速 引入 MTP (Multi-Token Predictio...
