通义千问推出第二代视觉语言模型 Qwen2-VL
通义千问团队对 Qwen-VL 模型进行重大更新——推出 Qwen2-VL。2023年8月,通义千问开源第一代视觉语言理解模型Qwen-VL,目前模型下载量突破1000万次。
本次Qwen2-VL开源了两个尺寸的模型,Qwen2-VL-2B-Instruct 和 Qwen2-VL-7B-Instruct,以及其GPTQ和AWQ的量化版本。
Qwen2-VL 新功能
- 增强的图像理解能力:Qwen2-VL显著提高了模型理解和解释视觉信息的能力,为关键性能指标设定了新的基准
- 高级视频理解能力:Qwen2-VL具有卓越的在线流媒体功能,能够以很高的精度实时分析动态视频内容
- 集成的可视化agent功能:Qwen2-VL 现在无缝整合了复杂的系统集成,将 Qwen2-VL 转变为能够进行复杂推理和决策的强大可视化代理
- 扩展的多语言支持:Qwen2-VL 扩展了语言能力,以更好地服务于多样化的全球用户群,使 Qwen2-VL 在不同语言环境中更易于访问和有效
模型结构
Qwen2-VL 的一项关键架构改进是实现了动态分辨率支持(Naive Dynamic Resolution support)。与上一代模型Qwen-VL不同,Qwen2-VL 可以处理任意分辨率的图像,而无需将其分割成块,从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知,使模型能够处理任何清晰度或大小的图像。
另一个关键的架构增强是Multimodal Rotary Position Embedding (M-ROPE) 的创新。通过将original rotary embedding分解为代表时间和空间(高度和宽度)信息的三个部分,M-ROPE 使 LLM 能够同时捕获和集成 1D 文本、2D视觉和 3D 视频位置信息。这使 LLM 能够充当强大的多模态处理器和推理器。
模型效果
在 7B 规模下,Qwen2-VL-7B成功保留了对图像、多图像和视频输入的支持,以更具成本效益的模型大小提供具有竞争力的性能。具体而言,Qwen2-VL-7B在文档理解任务(例如 DocVQA)和通过 MTVQA 评估的图像多语言文本理解方面表现出色,建立了非常优秀的性能。
本次Qwen2-VL推出一款更小的 2B 模型,该模型针对潜在的移动部署进行了优化。尽管参数量只有2B,但该模型在图像、视频和多语言理解方面表现出色。与其他类似规模的模型相比,它在视频相关任务、文档理解和一般场景问答方面表现尤为出色。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
如何让大模型输出 10k+ 字长文?
随着大语言模型的发展,许多模型已经能够处理超过100k+ tokens的输入上下文。然而,这些模型在生成长文本时,普遍存在输出长度受限的问题。 在实际应用中,为了克服这个问题,人们普遍采用「分而治之」的方法,让模型一段一段地写。这种方法在一定程度上似乎能够解决长文本输出的问题,但往往会导致 1)消耗 tokens 量成倍甚至指数增加;2)前后内容不连贯。 如何才能让模型拥有更强的长文本输出能力呢?我们发现,模型输出长度受限的主要原因在于,监督微调(SFT)数据集缺乏足够长的输出样例。 针对这一问题,我们构建了一个 6000 多条2k-20k words 不等的长输出数据集 LongWriter-6k,并在此基础上,对 GLM-4-9B 进行SFT微调和DPO对齐。新的模型拥有了能够生成超过10,000字/词连贯文本的能力。 下面是我们用 LongWriter-9B 模型,以「黑神话 · 悟空」为题撰写的玄幻小说。 > prompt:请帮我撰写一个主题为「黑神话·悟空」玄幻小说,小说以孙悟空为核心,讲述一个桀骜不驯,打怪升级,追逐梦想的玄幻故事,不少于 10000 字 完整视频可查...
- 下一篇
开源日报 | Elastic三年前飞出的“回旋镖”;米哈游蔡浩宇新AI公司曝光;FreeBSD讨论使用Rust;国产RISC-V芯崛起;机器“人”走入家庭还有多远?
欢迎阅读 OSCHINA 编辑部出品的开源日报,每天更新一期。 # 2024.8.30 今日要闻 Elastic被三年前飞出的“回旋镖”打到了 Elastic 公司创始人兼首席技术官 Shay Banon 今日发表官方博客《Elasticsearch is open source, again》,宣布为旗下两大核心产品 ——Elasticsearch 搜索引擎和 Kibana 可视化平台添加 AGPL 作为另一个许可证选项,与 ELv2 和 SSPL 并列。 米哈游蔡浩宇新AI公司曝光,挖Llama 3科学家坐镇大模型 米哈游创始人蔡浩宇,“退休”后新AI创业项目曝光,起因竟是他在网上发的一条“暴论”。AIGC已经彻底改变了游戏开发……大部分从业者可以考虑转行了。 新公司名为Anuttacon,要用AI为游戏玩家创造前所未有的体验,突破互动娱乐的界限。 FreeBSD 社区大讨论:基础系统中使用 Rust FreeBSD 社区正在讨论是否将 Rust 语言纳入基础系统(base system),以改善系统的安全性和可维护性。 与 Linux 不同,FreeBSD 操作系统内核和用户空间...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS7,CentOS8安装Elasticsearch6.8.6