阿里发布 Qwen3.5-Omni 全模态大模型
阿里通义实验室宣布全模态大模型 Qwen3.5-Omni 系列上线,包含 Plus、Flash、Light 三种尺寸的 Instruct 版本。 核心亮点速览 真正的“全模态”原生,无缝理解文本、图片、音频及音视频输入,支持细粒度、带时间戳的音视频 Caption 生成; 215 项 SOTA 霸榜,在音频及音视频分析、推理、对话、翻译等任务超过 Gemini3.1-Pro; 自然涌现的 Audio-Visual Vibe Coding 能力; 支持语义打断、音色克隆及语音控制,让对话体验更自然; 支持 256K 超长上下文与 113 种语言识别,可处理 10 小时音频或 1 小时视频。 原生支持 WebSearch 和复杂 Function Call,不仅能聊天,更能帮你做事。 根据介绍,Qwen3.5-Omni 延续了上一代的 Thinker-Talker 分工架构——Thinker 负责理解,Talker 负责表达。但这一次,两者都升级为 Hybrid-Attention MoE,效率和性能均有显著提升。 Thinker:接收视觉+音频信号,通过 TMRoPE 编码位置信息,输出...
