Liquid AI 发布 LFM2-8B-A1B:8B 参数仅激活 1.5B
高效MoE架构重塑边缘AILiquid AI推出的LFM2-8B-A1B是其LFM2系列的首个混合专家(Mixture-of-Experts, MoE)模型,总参数规模达8.3B,但每token仅激活约1.5B参数。这种稀疏激活机制在保持高表示能力的同时,大幅降低计算负载,使其适用于资源受限的设备端场景。不同于传统云端MoE模型,该设计针对实时交互优化,挑战了“小规模MoE不高效”的行业认知。 模型基于LFM2混合骨干架构,包括18个门控短卷积块和6个分组查询注意力(GQA)块。除前两层保持稠密以确保稳定性外,其余层均集成稀疏MoE前馈网络。每层配备32个专家,仅激活top-4专家,并采用归一化sigmoid路由器结合自适应偏置,实现负载均衡。支持32K上下文长度,兼容英文、阿拉伯文、中文、法文、德文、日文、韩文和西班牙文等多语言。 训练与性能:12T令牌铸就3-4B级能力LFM2-8B-A1B通过约12T令牌的预训练实现,包括55%英文、25%多语言和20%代码数据分布。随后采用Liquid Preference Alignment(长度归一化DPO/APO-Zero融合)进行后训练...
