阿里通义发布 Qwen3-VL 技术报告
阿里通义 Qwen 团队在 arXiv 平台发布了 Qwen3-VL 视觉语言模型的详细技术报告,全面披露了其从架构设计到评估方法的完整技术细节。
该报告全面涵盖了从预训练到后训练、从架构设计到基础设施、从数据处理到评估方法的整个技术链路,旨在为视觉语言模型领域的研究者与开发者提供一份完整的技术参考。
https://arxiv.org/pdf/2511.21631
Qwen 团队负责人林俊旸表示,团队正在为下一代模型做准备,视觉能力将是其中的重要组成部分。目前应用于 Qwen3-VL 的技术已证明其有效性,团队同时也在推进更具前瞻性的研究方向,包括多模态原生训练范式、视觉任务与领域的数据规模化扩展,以及多模态 agentic RL 相关的研究。
