阿里通义实验室宣布全模态大模型 Qwen3.5-Omni 系列上线,包含 Plus、Flash、Light 三种尺寸的 Instruct 版本。
核心亮点速览
- 真正的“全模态”原生,无缝理解文本、图片、音频及音视频输入,支持细粒度、带时间戳的音视频 Caption 生成;
- 215 项 SOTA 霸榜,在音频及音视频分析、推理、对话、翻译等任务超过 Gemini3.1-Pro;
- 自然涌现的 Audio-Visual Vibe Coding 能力;
- 支持语义打断、音色克隆及语音控制,让对话体验更自然;
- 支持 256K 超长上下文与 113 种语言识别,可处理 10 小时音频或 1 小时视频。
- 原生支持 WebSearch 和复杂 Function Call,不仅能聊天,更能帮你做事。
根据介绍,Qwen3.5-Omni 延续了上一代的 Thinker-Talker 分工架构——Thinker 负责理解,Talker 负责表达。但这一次,两者都升级为 Hybrid-Attention MoE,效率和性能均有显著提升。
![]()
- Thinker:接收视觉+音频信号,通过 TMRoPE 编码位置信息,输出文本。Hybrid-Attention 让它在处理 10 小时长音频、1小时视频时,依然能快速抓住重点。
- Talker:接收 Thinker 的多模态输出,进行 contextual 语音生成,用 RVQ 编码替代繁重的 DiT 运算。配合全新的 ARIA 技术,动态对齐文本和语音单元,解决了偶尔漏字、数字念不清的问题。你说“大声点、开心一点”,它当场就改。
- 而 MoE 的本质是“专家混合”——听音频的专家、看视频的专家、理解文本的专家各司其职,不会互相干扰。这就是为什么它能做到 215 项 SOTA 的同时,文本和视觉能力还能保持和单模态模型一样强。
相比上一代,Qwen3.5-Omni 在长上下文、多语言、音视频理解能力上都有明显提升,同时新增了语义打断、音色克隆、语音控制等实时交互能力,让对话体验更接近真人。配合 ARIA 技术,语音输出的稳定性和自然度也进一步改善。详细对比见下表:
![]()
Qwen3.5-Omni-Plus 在音频/音视频的理解、推理和交互任务上,共取得 215 项 SOTA 成绩,涵盖音视频、音频、语音识别、语音翻译等多个方向。
其中,通用音频理解、推理、识别、翻译、对话全面超越 Gemini-3.1 Pro,音视频理解能力总体达到 Gemini-3.1 Pro 水平。同时,视觉和文本能力与同尺寸 Qwen3.5 模型持平。