腾讯混元新一代快思考模型 Turbo S 发布
腾讯混元新一代快思考模型 Turbo S 正式发布。 公告称,区别于 Deepseek R1、混元T1等需要“想一下再回答”的慢思考模型,混元 Turbo S 能够实现“秒回”,更快速输出答案,吐字速度提升一倍,首字时延降低44%。在知识、数理、创作等方面,混元 Turbo S 也有不错表现。 通过长短思维链融合,混元 Turbo S 在保持文科类问题快思考体验的同时,基于自研混元 T1 慢思考模型合成的长思维链数据,显著改进了理科推理能力,实现模型整体性能明显提升。 在业界通用的多个公开 Benchmark 上,混元 Turbo S 在知识、数学、推理等多个领域,展现出对标 DeepSeek V3、GPT 4o、Claude等一系列业界领先模型的效果表现。 架构方面,创新采用 Hybrid-Mamba-Transformer 融合模式,混元Turbo S有效降低了传统 Transformer 结构的计算复杂度,减少了KV-Cache缓存占用,实现训练和推理成本的下降。 新的融合模式突破了传统纯 Transformer 结构大模型面临的长文训练和推理成本高的难题。一方面,发挥了 Mam...
