美团开源推理大模型 LongCat-Flash-Thinking
美团发布了一款基于混合专家架构的大型推理模型LongCat-Flash-Thinking,总参数量达5600亿,根据上下文需求动态激活186亿至313亿参数,平均激活约270亿参数。 该模型在逻辑、数学、编程及Agent任务上表现出色,并声称在AIME25等任务上,使用原生工具可以减少64.5%的token消耗来达到顶级准确率。 根据官方公布的评测结果,LongCat-Flash-Thinking在多个基准测试中与其他主流模型进行了对比,在数学推理(如MATH500, AIME25)、通用推理(如GPQA-Diamond)、代码生成(如LiveCodeBench, OJBench)、Agent工具使用(如SWE-Bench, τ²-Bench)以及形式化定理证明(如MiniF2F-Test)等取得了接近领先模型的水平。 LongCat-Flash-Thinking的模型权重已根据MIT许可证开源。官方提供了详细的聊天模板,模型也已上线官方聊天网站。 https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking https:/...

