通义千问推出 QVQ-Max 视觉推理模型第一版
通义千问发文宣布正式推出 QVQ-Max 视觉推理模型的第一版。
公告称,这一新版本的模型具备强大的多模态处理能力,它不仅能够“看懂”图片和视频里的内容,还能结合这些信息进行分析、推理,甚至给出解决方案。从数学题到生活小问题,从编程代码到艺术创作,QVQ-Max 都表现出了不俗的能力。
QVQ-Max 的应用范围很广,无论是在学习、工作还是日常生活中,它都能派上用场:
- 职场工具:在工作中,QVQ-Max 可以协助完成数据分析、信息整理、编程写代码等任务。
- 学习助手:对于学生来说,QVQ-Max 可以帮助解答数学、物理等科目的难题,尤其是那些配有图表的题目。它还能通过直观的方式讲解复杂概念,让学习变得更轻松。
- 生活小帮手:在生活中,QVQ-Max 也能提供不少实用建议。比如,它可以根据你的衣柜照片推荐穿搭方案,或者根据食谱图片指导你如何烹饪一道新菜。
目前的 QVQ-Max 只是第一版。项目团队计划接下来重点关注以下几个方向:
- 更准确地观察:通过视觉内容的校验,如grounding 来检查观察内容的准确性提高识别能力。
- 视觉Agent:提升模型在处理多步和更复杂的任务,如手机电脑操控,玩游戏。
- 更好的交互:让模型在思考和交互中不局限于文字,还可以涵盖更多的模态,比如工具校验,视觉生成等。
