美团开源 LongCat-Flash-Lite
美团 LongCat 团队宣布正式推出基于 N-gram 的全新模型 LongCat-Flash-Lite,拥有 685 亿参数,每次推理仅激活29亿~45亿参数的轻量化 MoE 模型。目前,已全面开源模型权重及技术细节。 根据介绍,通过将超过 300 亿参数高效用于嵌入层,LongCat-Flash-Lite 不仅超越了参数量等效的 MoE 基线模型,还在与同规模现有模型的对比中展现出卓越的竞争力,尤其在智能体与代码领域表现突出,并依托 YARN 技术可支持最长 256 K上下文,能高效处理长文档、大规模代码分析等场景。 同时,该模型基于嵌入扩展的应用与系统级优化,让模型推理效率大幅提升,在输入 4K,输出 1k 的典型负载下,LongCat API 可提供 500-700 token/s 的生成速度。 通过参数重分配奠定稀疏基础、专用缓存与内核优化消除系统开销、与推测解码策略深度协同,LongCat-Flash-Lite 实现了从模型结构到运行时系统的垂直优化,最终将 N-gram 嵌入带来的理论优势,有效转化为高吞吐、低延迟的实际推理性能。 测评结果显示,LongCat-Flas...
