腾讯混元 TurboS 技术报告发布：560B 参数混合 Mamba 架构、自适应长短链融合-低调大师

腾讯混元 TurboS 技术报告发布：560B 参数混合 Mamba 架构、自适应长短链融合

2025-05-22 270

年初，腾讯混元 TurboS “快思考模型”正式发布，作为业界首款大规模混合 Mamba-MoE 模型，其在效果与性能上展现了出显著优势。这一突破得益于预训练阶段的 tokens 增训，以及后训练阶段引入长短思维链融合技术。

近日，腾讯混元 TurboS 发布了技术报告，其模型架构如下：

据介绍，腾讯混元 TurboS 核心创新体现在以下几个方面：

架构协同：巧妙地融合了Mamba架构处理长序列的高效性与Transformer架构卓越的上下文理解能力。这两种架构的结合，旨在取长补短，实现性能与效率的最大化。模型包含128层，采用了创新的“AMF”（Attention → Mamba2 → FFN）和“MF”（Mamba2 → FFN）模块交错模式。这种设计使得模型在拥有5600亿总参数（56B激活参数）的同时，保持了较高的运算效率。

自适应思维链 (Adaptive Long-short CoT)：该机制是Hunyuan-TurboS的一大亮点。它借鉴了短思维链模型（如GPT-4o）的快速响应和计算友好特性，以及长思维链模型（如o3）强大的复杂推理能力。面对简单问题，TurboS自动激活“无思考”（no thinking）模式，以最小计算成本提供足够质量的答案；而当遇到复杂问题时，则自动切换至“思考”（thinking）模式，运用逐步分析、自我反思和回溯等深度推理方法，给出高准确度的回答。

先进的后训练策略：为了进一步增强模型能力，腾讯混元团队设计了包含四个关键模块的后训练流程：

1、监督微调（SFT）：通过精心构建的百万级自然和合成指令数据进行微调。

2、自适应长短CoT融合：通过专门训练的教师模型和独特的强化学习框架，实现推理策略的自主选择、计算资源的有效分配，并通过无损压缩和重构长思维链来提升响应的可读性。

3、多轮推敲学习（Multi-round Deliberation Learning）：SFT模型在模拟评估环境中与其他先进混元模型进行比较，通过多LLM裁判组和人类专家的评估驱动迭代优化。

4、两阶段大规模强化学习：利用GRPO，第一阶段聚焦于提升推理能力，第二阶段则致力于改善全领域的通用指令遵循能力。

详情查看论文：https://arxiv.org/abs/2505.15431

微信关注我们

原文链接：https://www.oschina.net/news/351259

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

腾讯混元大模型矩阵全面升级并推出多款新品

腾讯混元宣布模型矩阵全面升级：旗舰快思考模型混元TurboS、深度思考模型混元T1升级，并基于TurboS基座，腾讯新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice 腾讯混元图像2.0、腾讯混元3D v2.5及混元游戏视觉生成等一系列多模态模型同步“上新” 混元TurboS模型在全球公认的Chatbot Arena评测平台上已跻身前八名，在国内排名仅次于DeepSeek。其在代码和数学等理科领域的能力显著提升，得益于创新的预训练和后训练技术。深度思考模型混元T1近期也迎来了新升级，在竞赛数学、常识问答和复杂任务的Agent能力上均有提升。新发布的T1-Vision模型支持多图输入，具备原生长思维链，提高了图像理解的整体效果和速度。混元Voice模型实现了低延迟语音通话，响应速度提升并增强了拟人性和情绪应用能力，目前已在腾讯元宝App灰度上线。此外，腾讯同步更新了一系列多模态模型：混元图像2.0实现了“毫秒级”生图和超高准确率。混元3D v2.5凭借稀疏3D原生架构，在生成能力和可控性上取得突破，几何模型精度和纹理贴图大幅提升。面向游戏领域，推出...

2025-05-22

135

脉脉雇主排行榜近日首次上线智能辅助驾驶行业榜，小鹏汽车、元戎启行、文远知行等10家企业上榜。而最赚钱的岗位，莫过于大模型算法，最热门的招聘人才，则是算法工程师。该榜单涵盖整机厂、智驾芯片、智驾解决方案企业。上榜企业包括小鹏汽车、阿维塔科技、极氪汽车等整机厂，元戎启行、文远知行、斑马智行等智能驾驶解决方案企业。截至5月22日，小鹏汽车以雇主指数 65671 位列第一，元戎启行（雇主指数60462）、文远知行（雇主指数59969）紧随其后。分析师透露，智能辅助驾驶领域处于高速发展期，企业正在高薪招揽高技术人才以提升市场竞争力。乘联会数据显示，小鹏汽车在2025年4月销量同比增长274%，1-4月同比增长316.3%。其在脉脉发布的“端到端大模型资深算法工程师”岗位年薪最高达120万元，自动驾驶算法专家岗位年薪最高135万元。脉脉相关负责人表示，2025年是智驾平权的元年，优质企业对技术人才的渴求与日俱增。产业链上下游企业对大模型算法、智驾系统工程师岗位的需求尤为强烈。从薪资水平看，2025年1月1日-5月20日期间，位列高薪岗位前三的岗位分别是：大模型算法岗位新发平均月薪达701...

2025-05-23

1426

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。