Xiaomi MiMO 大模型负责人罗福莉:MiMo-V2-Flash 是 AGI 路线图中的第二步
今日上午,在小米2025小米人车家全生态合作伙伴大会上,Xiaomi MiMO大模型负责人罗福莉完成入职后的小米首秀,并正式发布和开源最新MoE大模型MiMo-V2-Flash。 罗福莉同步在社交媒体发布了对MiMo-V2-Flash的介绍: MiMo-V2-Flash 已正式上线。这只是我们 AGI 路线图中的第二步,但我想把一些真正产生决定性效果的工程选择随手记下来。 架构: 我们最终采用了 Hybrid SWA。它足够简单、足够优雅,而且在内部基准测试中,在长上下文推理上明显优于其他线性注意力(Linear Attention)变体。另外,固定 KV cache 与现有基础设施的兼容性要友好得多。 备注:窗口大小 128 是那个“甜点值”(512 反而会拉低性能);sink values 是不可妥协的,千万别省略。 MTP(Multi-Token Prediction): 这一点在高效 RL 中被严重低估了。除了第一层以外,MTP 实际上只需要极少的微调,就能达到很高的 accept length。使用 3 层 MTP 时,我们在编程任务中看到了 accept length 大于...

